ScoutAttention：レイヤー先読みのCPU事前計算によるLLM推論のための効率的KVキャッシュオフロード

arXiv cs.LG / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ScoutAttentionは、長いコンテキストのLLM推論においてGPUメモリ制約に対処するための新しいKVキャッシュオフロードの枠組みであり、KVキャッシュサイズがデコードのバッチサイズを制限する問題に取り組む。
この手法は、協調的なGPU-CPU連携と、ブロック単位のスパースアテンションを用いてCPU負荷を削減し、従来のオフロード手法で生じていたI/Oレイテンシや重いCPU計算によるGPUの活用率低下を緩和する。
主要な貢献として、CPUがアテンション計算を1層早く開始できる「レイヤー先読みのCPU事前計算アルゴリズム」を提案しており、CPU作業を最小限に保つために、非同期の周期的リコールを行う。
提案手法の実験では、精度がベースラインから2.4%以内に収まり、既存のオフロード技術に対して2.1×の速度向上が報告されている。さらに、実用可能な長コンテキスト性能を維持している。

要旨: 大規模言語モデルは、長いコンテキストでの推論中に、重要なGPUメモリ容量の制約に遭遇します。ここでは、KVキャッシュのメモリ消費がデコードのバッチサイズを著しく制限します。既存の研究では、KVキャッシュをDRAMへオフロードすることが検討されてきましたが、これらの手法は、頻繁なGPU-CPU間のデータ転送を要求するか、あるいは広範なCPU計算を課すため、システムがI/O処理やCPU処理の完了を待つことでGPU利用率が低下します。
本研究では、協調的なGPU-CPUアテンション計算によりLLM推論を加速する、新しいKVキャッシュオフロードの枠組みScoutAttentionを提案します。CPU計算がボトルネックにならないようにするため、ScoutAttentionは、CPU負荷を大幅に低減するGPU-CPU協調のブロック単位の疎アテンションを導入します。従来の並列計算アプローチとは異なり、当該フレームワークは新規の「レイヤ先行」CPU事前計算アルゴリズムを備えており、CPUが1層先のアテンション計算を開始できるようにします。さらに、CPUの計算負荷を最小限に保つための、非同期の周期的リコール機構を組み合わせます。実験結果は、ScoutAttentionが基準（ベースライン）に対して精度を2.4%以内に維持しつつ、既存のオフロード手法と比較して2.1倍の速度向上を達成することを示しています。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

ScoutAttention：レイヤー先読みのCPU事前計算によるLLM推論のための効率的KVキャッシュオフロード

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer