Kimi がトランスフォーマーの残差接続を置換する論文を公開。結果は信頼できそうだ

Reddit r/LocalLLaMA / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Kimi（Moonshot AI）は、標準の残差接続を置換する注意力残差を導入し、深い層が初期の情報を薄めてしまう希釈問題を解決します。
各層は、過去の表現を単純に合算するのではなく、学習された注意重みによって全ての前の層の出力に選択的に注意を向けることができる。
大学院レベルの試験、数学的推論、コード生成、長文コンテキストタスクで3〜7.5ポイントの改善を報告し、計算資源を約25%節約、トレーニングオーバーヘッドは4%未満、推論レイテンシの増加は2%未満。
ブロックアテンション残差の派生案を提案し、層をブロックにグループ化、ブロック内は通常の残差、ブロック間はアテンションベースの接続を用いて、低コストで利点を保持。
DeepSeekのmHCと比較して、Kimiのアプローチは約6分の1のメモリ帯域幅で同等以上の結果を達成すると報告されており、コードはMoonshotAI/Attention-ResidualsのGitHubに公開。7B/13Bスケールのモデルでのテストや量子化の相互作用を探ることができます。

Kimi（moonshot ai）は、「attention residuals」と呼ばれるものについての論文を公開しました。これは2015年のResNet以来、すべてのトランスフォーマに組み込まれてきた標準的な残差接続を置き換えるものです。

要約: 通常の残差接続は、すべての前の層の出力をただ積み重ねるだけです。40層目は1〜39層の蓄積出力がすべて積み上がった状態を受け取ります。深くなるほど、以前の情報はより薄まります。Kimiはこれを「希薄化問題」と呼びます。

彼らの解決策は、各層が総和を取る代わりに、すべての前の層の出力に選択的にアテンションできるようにすることです。要するに、各層は学習済みのアテンションウェイトを用いて、現在の入力にとってどの以前の層が最も重要かを選択します。

彼らのベンチマーク結果:

- 大学院レベルの試験、数学的推論、コード生成、長い文脈タスクで3〜7.5ポイントの改善

- ブロック版では計算量を約1.25倍削減

- トレーニングのオーバーヘッドは4%未満、推論遅延の増加は2%未満

- スケール性が高く、より大きなモデルほど恩恵を受ける

彼らはまた、「ブロック・アテンション・残差」バリアントも提案しました。層をブロックにグループ化し、ブロック内は通常の残差、ブロック間はアテンションベースです。これにより、ほとんどの利点を保ちながら、実行コストを大幅に抑えることができます。

興味深いのは、DeepSeekも最近、mHCアプローチで残差接続を修正しようとしましたが、全く異なる方向へと進んだことです。

DeepSeek は並列ストリームを追加し、Kimi は選択的アテンションを追加します。ある人が両者を比較すると、KimiのアプローチはDeepSeekのmHCと同等かそれ以上の結果を得つつ、メモリ帯域幅が約1/6しか必要ないようです。

実用的な意味として、Kimiのバージョンは置換可能なドロップインだとされたようです。残差モジュールを入れ替え、他はすべてそのまま、再訓練して改善を得る。DeepSeekのmHCはモデル全体のアーキテクチャの再構築を必要とします。

Karpathyはこれについて、注意機構をトランスフォーマのより多くの場所に適用できるかもしれない、というコメントを残しました。これは興味深い方向性です。

ローカルモデルの人々にとってこれは重要です。公開済みの重みモデルがこれを採用すれば、より大きなモデルを必要とせず、意味のある品質向上を実現できる可能性があります。パラメータ数は同じで、情報の流れが改善され、より良い結果が得られます。

論文には GitHub にコードがあります（MoonshotAI/Attention-Residuals）。誰かが7Bや13Bで試して、より小さなスケールでも改善が維持されるかを確認できればいいですね。

気になる点の1つは量子化との相互作用です。層間のアテンションウェイトが精度に敏感であれば、このアーキテクチャでは量子化が通常よりも影響を受ける可能性があります。

最近 Verdent を通じてさまざまなモデルをテストしており、アーキテクチャ間の品質差はパラメータ数の差よりも顕著になってきています。今のところは、単にスケールアップするだけでなく、アーキテクチャの革新がより重要になっていると感じます。

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to

Dev.to