CSAttention: LLM推論を高速化するための重心スコアリング注意機構

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、注意機構とKVキャッシュによって引き起こされる長コンテキストLLM推論のボトルネックに取り組みます。特に、エージェントやドメインQ&Aのワークロードで再利用可能なプリフィルプロンプトを用いる場合に顕著です。
  • 学習を必要としないスパース注意手法であるCentroid-Scoring Attention(CSAttention)を提案し、処理の多くを1回限りのオフライン・プリフィル段階へ移すことで、1トークンあたりのデコーディングコストを削減します。
  • CSAttentionは、オフライン・プリフィル中に固定サイズのクエリ中心のルックアップテーブルを構築し、オンライン・デコーディングではコンテキスト全体の走査ではなく、迅速なテーブル参照とGPUに適したスコア蓄積を用います。
  • 32K〜128Kのコンテキストに関する実験で、CSAttentionは非常に高いスパース度(最大95%)でも、フル注意とほぼ同等の精度を達成します。
  • 本手法は、最も強力なベースラインに対して最大4.6倍の推論速度向上を示し、精度とレイテンシの両面で他のスパース注意手法よりも優れています。

Abstract

ロングコンテキストLLMは、エージェントやドメインQ&A向けに拡張かつ再利用可能なプリフィルプロンプトにますます依存しており、注意(attention)とKVキャッシュがデコード時の支配的なボトルネックになりつつあります。スパース注意は計算量や転送コストを削減しますが、クエリとキーの間に内在する分布シフトがあるため、高いスパース度の領域ではしばしば精度を維持するのが難しくなります。本稿では、再利用されるコンテキストを高スループットで提供するために最適化された、学習不要のスパース注意手法であるCentroid-Scoring Attention(CSAttention)を提案します。CSAttentionは、オフライン・プリフィル/オンライン・デコードの設定に合わせて、計算のために保存を用いるという戦略を採用します。具体的には、複数のクエリにわたって償却できる一度限りのオフライン・プリフィル段階に計算を前倒ししつつ、各ステップのデコード遅延を積極的に最適化します。特にCSAttentionは、オフライン・プリフィル中にクエリ中心のルックアップテーブルを構築し、そのサイズはデコード中に固定のままとし、オンライン・デコードではフルコンテキストのスキャンを、効率的なテーブル参照とGPUに適したスコア蓄積に置き換えます。大規模な実験により、CSAttentionがフル注意とほぼ同等の精度を達成することが示されます。スパース度が高い(95%)場合かつロングコンテキスト設定(32K-128K)において、CSAttentionはモデル精度と推論速度の両面で、最先端のスパース注意手法を一貫して上回り、コンテキスト長128Kでは最も正確なベースラインに対して最大4.6倍の推論速度向上を達成します。