SWAA: 効率的かつ品質を維持するための長文処理に向けたスライディングウィンドウ注意の適応(Sliding Window Attention Adaptation)

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 既存のTransformer系LLMは自己注意の二乗計算量が長文推論を高コスト化するが、Sliding Window Attention(SWA)は線形に近い計算で効率化できる一方、長文性能が崩壊する問題がある。
  • 崩壊の原因として、(1) Full Attention(FA)で事前学習されたモデルにSWAを素朴に適用することで起きる学習-推論ミスマッチ、(2) SWAを全モジュールで常時適用することによる遠距離情報への到達の構造的制約の二点を挙げている。
  • 提案手法Sliding Window Attention Adaptation(SWAA)は、事前学習をコスト高にしない「プラグ&プレイ」なレシピ群として、FA/SWA層のインターリーブ、sinkトークン保持、軽量ファインチューニングなど4つの戦略を組み合わせる。
  • 実験では単一戦略では不十分でも、相乗的な組み合わせにより長文性能を回復でき、計算オーバーヘッドが変動する条件下でも最適構成を分析して効率性と品質のトレードオフを示している。

Abstract

TransformerベースのLLMにおける自己注意の二次計算量は、長いコンテキスト推論を非常に高コストなものにしています。最も単純な疎注意パターンであるSliding Window Attention(SWA)は線形計算量の代替手段を提供しますが、それでも壊滅的な長コンテキスト性能の崩壊に悩まされます。この崩壊は、2つの根本的な要因に起因します。すなわち、(1) Full Attention(FA)で事前学習されたモデルに対して何の工夫もなくSWAを適用する際の学習・推論不一致、そして、(2) SWAを常時すべてのモジュールに適用することによる、遠距離情報へのアクセスに関する構造的な必然的な制約です。これら2つの課題に対処するために、私たちは、コストのかかる事前学習なしでFAモデルをSWAへ適応させる、プラグ・アンド・プレイ型のレシピ集であるSliding Window Attention Adaptation(SWAA)を提案します。SWAAは、これらの異なる問題に対処するために4つの中核戦略を体系的に組み合わせます:(1) Full Attention(FA)デコードと(2) FA層とSWA層のインタリーブ(交互挿入)であり、選択的に遠距離情報へのアクセスを許可することで構造的な欠陥を緩和します。さらに、(3) ``sink''トークンの保持と(4) 軽量な微調整により、学習・推論不一致を緩和します。実験の結果、個別の戦略だけでは不十分ですが、特定の相乗的な組み合わせによって長コンテキスト性能が効果的に回復することがわかりました。計算オーバーヘッドは変動するものの、性能効率のトレードオフ分析により、多様なシナリオに対する最適なSWAA構成を特定でき、品質の許容可能な維持を伴いながら長コンテキスト推論で30%〜100%の高速化を達成します。コード、データ、モデル重みは https://github.com/yuyijiong/sliding-window-attention-adaptation で利用可能です