Attention Editing:クロスアーキテクチャ注意変換のための汎用的フレームワーク

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「Attention Editing」と呼ばれるフレームワークを提案し、完全な再プリトレーニングを最初から行うことなく、既に学習済みのLLMを新しい注意アーキテクチャ(例:MLAやゲート付きハイブリッドSWA)に変換できるようにする。
  • 配備上の制約に対処するため、ソースとターゲットの注意モジュール間で過度に厳密な構造一致を要求せず、学習可能なターゲット置換を用いて対応する。
  • 学習は漸進的蒸留に依存しており、途中段階の活性(アクティベーション)への教師強制による層ごとの最適化を行うことで、コールドスタート時の誤差の蓄積を抑え、その後、次トークン分布に対するモデルレベルの蒸留を実施する。
  • フレームワークはオプションとして、弱い特徴マッチング正則化を追加し、安定性を高めつつ性能を維持しながら、長いコンテキスト/長い生成における推論効率の向上を達成できる。
  • 実験では本手法をQwen3-8BおよびQwen3-30B-A3Bに適用し、さらにAscend 910Bクラスタのハードウェアに関する実務的な学習ケーススタディも含める。競争力のある性能に加えて、大幅な効率改善が報告されている。

要旨: キー・バリュー(KV)キャッシュメモリおよび帯域幅は、長いコンテキストおよび長い生成の領域において、大規模言語モデルの推論コストをますます支配するようになっています。多頭潜在注意(MLA)やハイブリッド・スライディングウィンドウ注意(SWA)といったアーキテクチャは、この上限を緩和し得ますが、それらを既存モデルへ統合することは依然として困難です。従来手法では、元の注意モジュールと目標となる注意モジュールの両方に、きわめて細粒度の構造的要件が課されがちで、実運用上の実現可能性という要件を満たせません。本稿では、再学習をゼロから行うことなく、新しい注意アーキテクチャを備えた学習済みの大規模言語モデル(LLM)を変換するための実用的フレームワークであるAttention Editingを提案します。Attention editingは、元の注意を学習可能な目標モジュールで置き換え、それを段階的蒸留(progressive distillation)によって学習します。段階的蒸留は、(1)コールドスタートの誤差蓄積を防ぐための中間活性の教師強制による層ごとの最適化、ならびに(2)次トークン分布に対するモデルレベル蒸留で構成され、弱い特徴整合によって任意に正則化されます。このフレームワークを2種類の目標—MLAと、ゲーティング付きのハイブリッドSWA設計であるGateSWA—に対して具体化し、それをQwen3-8BおよびQwen3-30B-A3Bに適用します。その結果得られたモデルは、競争力のある性能を維持しつつ、大幅な効率改善を実現し、大規模な注意変換が実現可能かつ頑健であることを示します。特に、実験はAscend 910Bクラスター上で実施されており、国内ハードウェアにおける実用的な学習の事例研究となっています。