| 標準的な残差接続では、各層は出力をこれまでの全層の総和に等しい重みで単純に加算するだけで、全く選択性がありません。Attention Residuals はこれをソフトマックス注意機構に置き換えます:各層は前の全層の出力を参照する1つの学習済みクエリベクトルを受け取り、入力に依存した重みを生成し、層が実際に必要とするものを選択的に取得できるようにします。 スケーリング則の実験では、Block AttnRes は計算量を1.25倍増やしたベースラインと同じ損失を達成します。1.4Tトークンで訓練された48Bパラメータの(3Bが活性化)Kimi Linear モデルに組み込むと、評価対象のすべてのベンチマークで改善します:GPQA-Diamond +7.5、Math +3.6、HumanEval +3.1。オーバーヘッドは最小限で、パイプライン並列性下での追加訓練コストは4%未満、推論レイテンシの増加は2%未満です。 Karpathy もまた「Attention is all you need!」という議論に参加しました。 視覚化画像の出典: https://x.com/eliebakouch/status/2033488233854620007?s=20 [リンク] [コメント] |
残差接続は10年間変わっていないが、Kimiはそれをアテンションで置き換えた
Reddit r/LocalLLaMA / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Attention Residuals は、層ごとに学習されたクエリを用いて前の層の出力にアテンションを適用することで、従来の残差接続を置換し、入力依存のルーティングを生み出すことを説明する。
- スケーリング実験では、Block AttnRes は1.25倍の計算資源で学習したベースラインのロスに匹敵し、さらに48BパラメータのKimi Linearモデルを1.4兆トークンで学習させた場合、GPQA-Diamond(+7.5)、Math(+3.6)、HumanEval(+3.1)で顕著な改善を達成する。
- この手法は控えめなオーバーヘッドを追加し、パイプライン並列化下での追加トレーニングコストは4%未満、推論遅延は追加で2%未満。
- Karpathy は『Attention is all you need!』という議論に参加し、記事にはリンクされた X 投稿に由来する視覚化画像が含まれている。




