CSAttention: LLM推論を高速化するための重心スコアリング注意機構
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、注意機構とKVキャッシュによって引き起こされる長コンテキストLLM推論のボトルネックに取り組みます。特に、エージェントやドメインQ&Aのワークロードで再利用可能なプリフィルプロンプトを用いる場合に顕著です。
- 学習を必要としないスパース注意手法であるCentroid-Scoring Attention(CSAttention)を提案し、処理の多くを1回限りのオフライン・プリフィル段階へ移すことで、1トークンあたりのデコーディングコストを削減します。
- CSAttentionは、オフライン・プリフィル中に固定サイズのクエリ中心のルックアップテーブルを構築し、オンライン・デコーディングではコンテキスト全体の走査ではなく、迅速なテーブル参照とGPUに適したスコア蓄積を用います。
- 32K〜128Kのコンテキストに関する実験で、CSAttentionは非常に高いスパース度(最大95%)でも、フル注意とほぼ同等の精度を達成します。
- 本手法は、最も強力なベースラインに対して最大4.6倍の推論速度向上を示し、精度とレイテンシの両面で他のスパース注意手法よりも優れています。




