arXiv:2603.15031 [cs.CL]: https://arxiv.org/abs/2603.15031
要約: PreNorm を用いた残差接続は現代のLLMでは標準的だが、それらはすべての層の出力を固定の単位重みで蓄積する。この一様な集約は深さとともに隠れ状態の成長を制御不能にし、各層の寄与を次第に薄めていく。我々は Attention Residuals (AttnRes) を提案する。これはこの固定蓄積を、前の層の出力に対してソフトマックスのアテンションを用いて置換し、各層が学習された入力依存の重みで以前の表現を選択的に集約できるようにする。大規模モデル訓練における全前の層出力に対するアテンションのメモリと通信のオーバーヘッドに対処するため、Block AttnRes を導入する。層をブロックに分割し、ブロックレベルの表現に対してアテンションを適用することで、メモリ使用量を抑えつつ、全 AttnRes の利点の大半を維持する。キャッシュベースのパイプライン通信と二段階の計算戦略と組み合わせると、Block AttnRes は最小限のオーバーヘッドで標準の残差接続の実用的なドロップイン置換となる。
スケーリング則の実験は、改善がモデルサイズを問わず一貫していることを確認し、内容依存の深さ方向の選択の利点を検証する。我々は AttnRes を Kimi Linear アーキテクチャ(総計 48B / 活性化パラメータ 3B)に統合し、1.4T トークンで事前学習を行い、PreNorm の希薄化を緩和して深さを横断する出力の大きさと勾配分布をより均一にし、評価されたすべてのタスクで下流の性能を向上させる。
From Kimi.ai on 𝕏: https://x.com/Kimi\_Moonshot/status/2033378587878072424
[リンク] [コメント]