深さのスケーリングは、大規模言語モデル(LLM)にとって重要な駆動要因です。しかし、LLMがより深くなるにつれて、しばしば信号劣化に悩まされます。浅い層で形成された有益な特徴が、反復的な残差更新によって徐々に希釈され、その結果として深い層では回復しにくくなるのです。我々は、mixture-of-depths attention(MoDA)という仕組みを提案します。これは、各注意ヘッドが、現在の層でのsequence KVペアと、先行する層からのdepth KVペアの両方に注意を向けられるようにするものです。さらに、非連続なメモリアクセスのパターンを解決する、MoDAのためのハードウェア効率に優れたアルゴリズムを説明し、シーケンス長64KにおいてFlashAttention-2の効率の97.3%を達成します。1.5Bパラメータのモデルに関する実験では、MoDAが一貫して強力なベースラインを上回ることが示されています。特に、10の検証ベンチマークにおける平均パープレキシティを0.2改善し、10の下流タスクで平均性能を2.11%向上させます。一方で、計算オーバーヘッド(FLOPs)はごくわずかで3.7%です。また、MoDAをpost-normと組み合わせると、pre-normと組み合わせた場合よりも良い性能が得られることも見出しています。これらの結果は、MoDAが深さスケーリングの有望なプリミティブであることを示唆しています。
論文 : https://arxiv.org/abs/2603.15619
コード : https://github.com/hustvl/MoDA
ブログ : https://lh-zhu.github.io/The-Second-Half-of-Model-Architecture/
経由 Source Tweet #JustSharing
[link] [comments]