Abstract
トランスフォーマー・アーキテクチャは自然言語処理タスクで最先端の性能を達成しているものの、これらのモデルは大きなメモリおよび計算オーバーヘッドを課しています。近年の研究では、これらのモデル内部、とりわけ上位層における注意(attention)サブレイヤ内に重要なアーキテクチャ上の冗長性が存在することが明らかになっており、性能を損なうことなく最適化の余地があります。推論時の層プルーニングや、言語モデルにおける深さ依存の計算に関する研究から得られた知見をもとに、ShishuLM と呼ばれる効率的な言語モデル・アーキテクチャを提案します。モデル上部の完全なデコーダ層を MLP のみのブロックで置き換えることで、生成レイテンシが最大 10-60% 改善し、スループットで 1.3 -5 \times の向上を達成します。さらに、ShishuLM の隣接する MLP のみの層間でパラメータを共有することで、性能への軽微な低下にとどめつつ、メモリを最大 20% 節約できます。本研究の結果は、トランスフォーマーにおける情報の流れの仕方を活用することで、事前学習の観点からより効率的な言語モデリング・アーキテクチャを構築するための示唆を提供します。