LinearARD: RoPE復元のための線形メモリによる注意（アテンション）蒸留

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RoPEスケーリングと継続的事前学習によってLLMのコンテキストウィンドウを拡張した際に（多くの場合短文コンテキスト性能が低下することがある）生じる、元のモデル挙動の復元を目的とした自己蒸留手法であるLinearARDを提案する。
隠れ状態の蒸留ではなく、LinearARDは、Q/Q、K/K、V/Vの自己相関行列に対する行方向の分布を、凍結したnative-RoPE教師を用いてアテンション構造の一貫性が保たれるよう整合させることで、注意ダイナミクスを教師から学習させる。
n×nの注意関係マップに伴う二次的なメモリコストを避けるため、本手法は、トークンごとのlog-sum-exp統計に基づく線形メモリ・カーネルを用い、さらにログit再計算を後方パス（backward）に統合することで、厳密なKLダイバージェンスと勾配を計算する。
LLaMA2-7Bを4Kから32Kへ拡張した実験では、LinearARDがベースラインに対して短文性能の98.3%を回復しつつ、長コンテキストのベンチマークも改善することが示される。
著者らによれば、これらの向上は4.25Mトレーニングトークンのみで到達でき、LongReDやCPT（いずれも256Mトークン）といった先行手法より大幅に少ない。あわせてGitHubでコードを公開している。

要旨: 大規模言語モデルにおけるコンテキストウィンドウの拡張は、通常、位置エンコーディングをスケールし、その後に軽量な継続的事前学習（CPT）を行うことで実現されます。長いシーケンスの処理には有効ですが、このパラダイムはしばしば元のモデル能力を損なってしまい、標準的な短文ベンチマークで性能劣化につながります。私たちは、凍結されたネイティブRoPE教師に対する注意の構造整合性によって、RoPEをスケールした学生モデルを復元する自己蒸留手法であるLinearARDを提案します。不可解な隠れ状態を一致させるのではなく、密な $Q/Q$ 、 $K/K$ 、および $V/V$ の自己関係行列の行ごとの分布を整列させ、注意のダイナミクスを直接的に教師信号として監督します。 $n imes n$ の関係マップに伴う二次的なメモリのボトルネックを克服するために、線形メモリのカーネルを導入します。このカーネルは、トークンごとの log-sum-exp 統計を用い、後方パスでログitの再計算を融合することで、厳密なクルバック・ライブラー（Kullback-Leibler）発散と勾配を計算します。4Kから32Kへ拡張したLLaMA2-7Bにおいて、LinearARDは最先端のベースラインの短文性能の98.3%を回復しつつ、長コンテキストのベンチマークではそれらを上回ります。特筆すべきことに、本手法はLongReDおよびCPTで必要とされる extbf{256M} トークンではなく、 extbf{4.25M} のみの学習トークンでこれらの結果を達成します。コードは https://github.com/gracefulning/LinearARD で公開しています。