Mixture-of-Depths Attention(MoDA)— arXiv

Reddit r/LocalLLaMA / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、LLMの深さスケーリングでよく起きる課題として、より深い層で信号が劣化し、浅い層で作られた有益な特徴が残差更新の反復によって薄まって回復しにくくなる点を扱っています。
  • その解決として、Mixture-of-Depths Attention(MoDA)を提案し、各アテンションヘッドが現在の層のKVに加えて、直前の層のKVも参照して混合できるようにします。
  • 非連続なメモリアクセスに対処するハードウェア効率の高いMoDAアルゴリズムも提示され、系列長64KでFlashAttention-2の効率の97.3%を達成します。
  • 1.5Bパラメータのモデル実験では、MoDAが検証ベンチマーク10個の平均パープレキシティを0.2改善し、下流タスク10個の平均性能を2.11%向上させる一方、FLOPsのオーバーヘッドは3.7%にとどまります。
  • さらに、MoDAはpost-normと組み合わせた場合にpre-normより良い性能を示し、深さスケーリングの有望な基本要素になり得ることを示唆しています。

深さのスケーリングは、大規模言語モデル(LLM)にとって重要な駆動要因です。しかし、LLMがより深くなるにつれて、しばしば信号劣化に悩まされます。浅い層で形成された有益な特徴が、反復的な残差更新によって徐々に希釈され、その結果として深い層では回復しにくくなるのです。我々は、mixture-of-depths attention(MoDA)という仕組みを提案します。これは、各注意ヘッドが、現在の層でのsequence KVペアと、先行する層からのdepth KVペアの両方に注意を向けられるようにするものです。さらに、非連続なメモリアクセスのパターンを解決する、MoDAのためのハードウェア効率に優れたアルゴリズムを説明し、シーケンス長64KにおいてFlashAttention-2の効率の97.3%を達成します。1.5Bパラメータのモデルに関する実験では、MoDAが一貫して強力なベースラインを上回ることが示されています。特に、10の検証ベンチマークにおける平均パープレキシティを0.2改善し、10の下流タスクで平均性能を2.11%向上させます。一方で、計算オーバーヘッド(FLOPs)はごくわずかで3.7%です。また、MoDAをpost-normと組み合わせると、pre-normと組み合わせた場合よりも良い性能が得られることも見出しています。これらの結果は、MoDAが深さスケーリングの有望なプリミティブであることを示唆しています。

論文 : https://arxiv.org/abs/2603.15619

コード : https://github.com/hustvl/MoDA

ブログ : https://lh-zhu.github.io/The-Second-Half-of-Model-Architecture/

経由 Source Tweet #JustSharing

submitted by /u/pmttyji
[link] [comments]