[R] Kimiチームによる Attention Residuals（AttnRes）

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は Attention Residuals（AttnRes）を提案し、層出力の固定で一様な蓄積を、直前の層表現に対する内容依存のソフトマックスアテンションで置換して、深層 PreNorm の希薄化を低減します。
大規模モデルにおけるメモリおよび通信の課題に対応するため、Block AttnRes を導入し、ブロックレベルの表現に対してアテンションを行うことで、AttnRes の利点の大半を維持しつつメモリ使用量を削減します。
このアプローチは、キャッシュベースのパイプライン通信と二段階の計算戦略によって補完され、Block AttnRes を最小限のオーバーヘッドで、実用的なドロップイン置換として実現します。
Kimi Linear アーキテクチャ（総パラメータ 48B、活性化パラメータ 3B）を対象に 1.4兆トークンで学習した実験結果は、AttnRes が出力の大きさを深さを跨いでより均一にし、勾配分布を均一化するとともに、下流タスクの性能を向上させることを示しています。

arXiv:2603.15031 [cs.CL]: https://arxiv.org/abs/2603.15031

要約: PreNorm を用いた残差接続は現代のLLMでは標準的だが、それらはすべての層の出力を固定の単位重みで蓄積する。この一様な集約は深さとともに隠れ状態の成長を制御不能にし、各層の寄与を次第に薄めていく。我々は Attention Residuals (AttnRes) を提案する。これはこの固定蓄積を、前の層の出力に対してソフトマックスのアテンションを用いて置換し、各層が学習された入力依存の重みで以前の表現を選択的に集約できるようにする。大規模モデル訓練における全前の層出力に対するアテンションのメモリと通信のオーバーヘッドに対処するため、Block AttnRes を導入する。層をブロックに分割し、ブロックレベルの表現に対してアテンションを適用することで、メモリ使用量を抑えつつ、全 AttnRes の利点の大半を維持する。キャッシュベースのパイプライン通信と二段階の計算戦略と組み合わせると、Block AttnRes は最小限のオーバーヘッドで標準の残差接続の実用的なドロップイン置換となる。
スケーリング則の実験は、改善がモデルサイズを問わず一貫していることを確認し、内容依存の深さ方向の選択の利点を検証する。我々は AttnRes を Kimi Linear アーキテクチャ（総計 48B / 活性化パラメータ 3B）に統合し、1.4T トークンで事前学習を行い、PreNorm の希薄化を緩和して深さを横断する出力の大きさと勾配分布をより均一にし、評価されたすべてのタスクで下流の性能を向上させる。

From Kimi.ai on 𝕏: https://x.com/Kimi\_Moonshot/status/2033378587878072424

投稿者 /u/Nunki08
[リンク] [コメント]

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

[R] Kimiチームによる Attention Residuals（AttnRes）

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer