広告

ScoutAttention:レイヤー先読みのCPU事前計算によるLLM推論のための効率的KVキャッシュオフロード

arXiv cs.LG / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ScoutAttentionは、長いコンテキストのLLM推論においてGPUメモリ制約に対処するための新しいKVキャッシュオフロードの枠組みであり、KVキャッシュサイズがデコードのバッチサイズを制限する問題に取り組む。
  • この手法は、協調的なGPU-CPU連携と、ブロック単位のスパースアテンションを用いてCPU負荷を削減し、従来のオフロード手法で生じていたI/Oレイテンシや重いCPU計算によるGPUの活用率低下を緩和する。
  • 主要な貢献として、CPUがアテンション計算を1層早く開始できる「レイヤー先読みのCPU事前計算アルゴリズム」を提案しており、CPU作業を最小限に保つために、非同期の周期的リコールを行う。
  • 提案手法の実験では、精度がベースラインから2.4%以内に収まり、既存のオフロード技術に対して2.1×の速度向上が報告されている。さらに、実用可能な長コンテキスト性能を維持している。

要旨: 大規模言語モデルは、長いコンテキストでの推論中に、重要なGPUメモリ容量の制約に遭遇します。ここでは、KVキャッシュのメモリ消費がデコードのバッチサイズを著しく制限します。既存の研究では、KVキャッシュをDRAMへオフロードすることが検討されてきましたが、これらの手法は、頻繁なGPU-CPU間のデータ転送を要求するか、あるいは広範なCPU計算を課すため、システムがI/O処理やCPU処理の完了を待つことでGPU利用率が低下します。
本研究では、協調的なGPU-CPUアテンション計算によりLLM推論を加速する、新しいKVキャッシュオフロードの枠組みScoutAttentionを提案します。CPU計算がボトルネックにならないようにするため、ScoutAttentionは、CPU負荷を大幅に低減するGPU-CPU協調のブロック単位の疎アテンションを導入します。従来の並列計算アプローチとは異なり、当該フレームワークは新規の「レイヤ先行」CPU事前計算アルゴリズムを備えており、CPUが1層先のアテンション計算を開始できるようにします。さらに、CPUの計算負荷を最小限に保つための、非同期の周期的リコール機構を組み合わせます。実験結果は、ScoutAttentionが基準(ベースライン)に対して精度を2.4%以内に維持しつつ、既存のオフロード手法と比較して2.1倍の速度向上を達成することを示しています。

広告