SWAA: 効率的かつ品質を維持するための長文処理に向けたスライディングウィンドウ注意の適応(Sliding Window Attention Adaptation)
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 既存のTransformer系LLMは自己注意の二乗計算量が長文推論を高コスト化するが、Sliding Window Attention(SWA)は線形に近い計算で効率化できる一方、長文性能が崩壊する問題がある。
- 崩壊の原因として、(1) Full Attention(FA)で事前学習されたモデルにSWAを素朴に適用することで起きる学習-推論ミスマッチ、(2) SWAを全モジュールで常時適用することによる遠距離情報への到達の構造的制約の二点を挙げている。
- 提案手法Sliding Window Attention Adaptation(SWAA)は、事前学習をコスト高にしない「プラグ&プレイ」なレシピ群として、FA/SWA層のインターリーブ、sinkトークン保持、軽量ファインチューニングなど4つの戦略を組み合わせる。
- 実験では単一戦略では不十分でも、相乗的な組み合わせにより長文性能を回復でき、計算オーバーヘッドが変動する条件下でも最適構成を分析して効率性と品質のトレードオフを示している。



