トークン・スパース・アテンション：インタリーブされたトークン選択による効率的な長文脈推論

arXiv cs.CL / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、大規模言語モデルの長文脈推論における主なボトルネックである自己注意の二次計算コストに焦点を当てています。
トークン・スパース・アテンションとして、各ヘッド単位でトークンを動的に選別し、注意計算では削減したトークン集合を使ってから、出力を元のシーケンスに復元する手法を提案しています。
従来の固定的な構造スパース化や特定層での永久的なトークン削除とは異なり、この手法では後続の層でトークン情報を再検討でき、早期の不可逆な打ち切りを避けます。
この手法は軽量で、Flash Attention を含む密なアテンション実装と互換性があり、既存のスパース・アテンション・カーネルとも組み合わせ可能です。
実験では、128K文脈で最大3.23×の注意計算高速化を達成し、精度劣化は1%未満に抑えつつ、精度とレイテンシのトレードオフが一貫して改善されることが示されています。

要旨：注意の二次計算量は、大規模言語モデルにおける長文コンテキスト推論の中核的なボトルネックであり続けている。先行する加速手法は、構造化されたパターンにより注意マップを疎にするか、特定の層でトークンを恒久的に追い出すかのいずれかである。しかし、前者は無関係なトークンを保持し得るし、後者はトークン重要度の層／ヘッドごとのダイナミクスにもかかわらず、取り返しのつかない初期の判断に依存してしまう可能性がある。本論文では、Token Sparse Attention（トークン疎注意）を提案する。これは、注意中に各ヘッドの $Q$ , $K$ , $V$ を縮小したトークン集合に圧縮し、その後出力を元のシーケンスへと解凍する、軽量かつ動的なトークンレベル疎化メカニズムである。これにより、次の層でトークン情報を再検討できるようになる。さらに、Token Sparse Attention は、トークン選択と疎注意の交点に新しい設計上の論点をもたらす。提案手法は Flash Attention を含む密な注意の実装と完全に互換であり、既存の疎注意カーネルとシームレスに組み合わせられる。実験結果は、Token Sparse Attention が一貫して精度とレイテンシのトレードオフを改善し、128K コンテキストにおいて精度低下 1% 未満で最大 $imes$ 3.23 の注意速度向上を達成することを示している。これらの結果は、動的でインターリーブ（交互挿入）されたトークンレベル疎化が、スケーラブルな長文コンテキスト推論のための補完的かつ有効な戦略であることを示している。