アテンション残差（AttnRes）

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は Attention Residuals（AttnRes）を導入し、層出力の固定単位重みの蓄積を前位の層表現全体に対してソフトマックス注意を用いた集約へ置換することで、入力に依存した選択的集約を可能にする。
大規模トレーニングにおけるメモリと通信コストに対処するため、Block AttnResを提案する。これは層をブロックに分割し、ブロックレベルの表現に対して注意を適用する。
著者らは、AttnResの利点がモデルサイズを問わず持続するというスケーリング法則の証拠を示し、1.4兆トークンで訓練された 48B総パラメータ / 3B 活性化を備えた Kimi Linear アーキテクチャへ組み込んだ際、勾配分布と活性化分布の改善を示した。
導入上の追加の配慮事項として、キャッシュベースのパイプライン通信と、AttnResを最小限のオーバーヘッドで実用的なドロップイン置換とするための二段階計算戦略が挙げられる。