AI Navigate

[R] Kimiチームによる Attention Residuals(AttnRes)

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Attention Residuals(AttnRes)を提案し、層出力の固定で一様な蓄積を、直前の層表現に対する内容依存のソフトマックスアテンションで置換して、深層 PreNorm の希薄化を低減します。
  • 大規模モデルにおけるメモリおよび通信の課題に対応するため、Block AttnRes を導入し、ブロックレベルの表現に対してアテンションを行うことで、AttnRes の利点の大半を維持しつつメモリ使用量を削減します。
  • このアプローチは、キャッシュベースのパイプライン通信と二段階の計算戦略によって補完され、Block AttnRes を最小限のオーバーヘッドで、実用的なドロップイン置換として実現します。
  • Kimi Linear アーキテクチャ(総パラメータ 48B、活性化パラメータ 3B)を対象に 1.4兆トークンで学習した実験結果は、AttnRes が出力の大きさを深さを跨いでより均一にし、勾配分布を均一化するとともに、下流タスクの性能を向上させることを示しています。

arXiv:2603.15031 [cs.CL]: https://arxiv.org/abs/2603.15031

要約: PreNorm を用いた残差接続は現代のLLMでは標準的だが、それらはすべての層の出力を固定の単位重みで蓄積する。この一様な集約は深さとともに隠れ状態の成長を制御不能にし、各層の寄与を次第に薄めていく。我々は Attention Residuals (AttnRes) を提案する。これはこの固定蓄積を、前の層の出力に対してソフトマックスのアテンションを用いて置換し、各層が学習された入力依存の重みで以前の表現を選択的に集約できるようにする。大規模モデル訓練における全前の層出力に対するアテンションのメモリと通信のオーバーヘッドに対処するため、Block AttnRes を導入する。層をブロックに分割し、ブロックレベルの表現に対してアテンションを適用することで、メモリ使用量を抑えつつ、全 AttnRes の利点の大半を維持する。キャッシュベースのパイプライン通信と二段階の計算戦略と組み合わせると、Block AttnRes は最小限のオーバーヘッドで標準の残差接続の実用的なドロップイン置換となる。
スケーリング則の実験は、改善がモデルサイズを問わず一貫していることを確認し、内容依存の深さ方向の選択の利点を検証する。我々は AttnRes を Kimi Linear アーキテクチャ(総計 48B / 活性化パラメータ 3B)に統合し、1.4T トークンで事前学習を行い、PreNorm の希薄化を緩和して深さを横断する出力の大きさと勾配分布をより均一にし、評価されたすべてのタスクで下流の性能を向上させる。

From Kimi.ai on 𝕏: https://x.com/Kimi\_Moonshot/status/2033378587878072424

投稿者 /u/Nunki08
[リンク] [コメント]