Kimi(moonshot ai)は、「attention residuals」と呼ばれるものについての論文を公開しました。これは2015年のResNet以来、すべてのトランスフォーマに組み込まれてきた標準的な残差接続を置き換えるものです。
要約: 通常の残差接続は、すべての前の層の出力をただ積み重ねるだけです。40層目は1〜39層の蓄積出力がすべて積み上がった状態を受け取ります。深くなるほど、以前の情報はより薄まります。Kimiはこれを「希薄化問題」と呼びます。
彼らの解決策は、各層が総和を取る代わりに、すべての前の層の出力に選択的にアテンションできるようにすることです。要するに、各層は学習済みのアテンションウェイトを用いて、現在の入力にとってどの以前の層が最も重要かを選択します。
彼らのベンチマーク結果:
- 大学院レベルの試験、数学的推論、コード生成、長い文脈タスクで3〜7.5ポイントの改善
- ブロック版では計算量を約1.25倍削減
- トレーニングのオーバーヘッドは4%未満、推論遅延の増加は2%未満
- スケール性が高く、より大きなモデルほど恩恵を受ける
彼らはまた、「ブロック・アテンション・残差」バリアントも提案しました。層をブロックにグループ化し、ブロック内は通常の残差、ブロック間はアテンションベースです。これにより、ほとんどの利点を保ちながら、実行コストを大幅に抑えることができます。
興味深いのは、DeepSeekも最近、mHCアプローチで残差接続を修正しようとしましたが、全く異なる方向へと進んだことです。
DeepSeek は並列ストリームを追加し、Kimi は選択的アテンションを追加します。ある人が両者を比較すると、KimiのアプローチはDeepSeekのmHCと同等かそれ以上の結果を得つつ、メモリ帯域幅が約1/6しか必要ないようです。
実用的な意味として、Kimiのバージョンは置換可能なドロップインだとされたようです。残差モジュールを入れ替え、他はすべてそのまま、再訓練して改善を得る。DeepSeekのmHCはモデル全体のアーキテクチャの再構築を必要とします。
Karpathyはこれについて、注意機構をトランスフォーマのより多くの場所に適用できるかもしれない、というコメントを残しました。これは興味深い方向性です。
ローカルモデルの人々にとってこれは重要です。公開済みの重みモデルがこれを採用すれば、より大きなモデルを必要とせず、意味のある品質向上を実現できる可能性があります。パラメータ数は同じで、情報の流れが改善され、より良い結果が得られます。
論文には GitHub にコードがあります(MoonshotAI/Attention-Residuals)。誰かが7Bや13Bで試して、より小さなスケールでも改善が維持されるかを確認できればいいですね。
気になる点の1つは量子化との相互作用です。層間のアテンションウェイトが精度に敏感であれば、このアーキテクチャでは量子化が通常よりも影響を受ける可能性があります。
最近 Verdent を通じてさまざまなモデルをテストしており、アーキテクチャ間の品質差はパラメータ数の差よりも顕著になってきています。今のところは、単にスケールアップするだけでなく、アーキテクチャの革新がより重要になっていると感じます。
[リンク] [コメント]