何よりも場所が重要: 位置認識型疑似クエリによるデコード整合KVキャッシュ圧縮
arXiv cs.CL / 2026/3/13
📰 ニュースModels & Research
要点
- 本論文は、KVキャッシュのメモリ使用量がコンテキスト長とともに増大することを指摘し、デコード整合かつ位置情報を考慮した疑似クエリを用いてトークンを排除することで圧縮するDapQを提案する。
- 疑似クエリの構築において、位置情報が意味内容よりも重要であることを示し、デコード過程を反映した観測窓を実現する。
- DapQは出力トークンをシミュレートして観測窓を生成し、生成過程と整合させることで、推論時のトークン排除をより正確に行えるようにする。
- 複数のベンチマークとLLMにわたる実験結果は、厳しいメモリ予算下で顕著な改善を示し、3%のKVキャッシュ予算でNIAHにおいて99.5%のほぼロスレス性能を達成する。
Abstract: KVキャッシュは効率的な大規模言語モデル(LLMs)推論には不可欠ですが、過度に長いコンテキストはKVキャッシュのメモリ使用量を著しく増大させます。既存のKVキャッシュ圧縮手法は通常、プレフィル段階でプロンプト観測窓内の入力側アテンションパターンに依存し、トークンの重要度を推定します。しかし、これらの評価はデコードプロセスから導出されないため、将来の生成のために重要なトークンを保持することに失敗します。直感的には、効果的な観測窓はデコード段のクエリを反映して、生成プロセスがどのトークンに注目するかを正確に反映するべきです。しかし、推論時には真のデコードクエリは本質的に利用できません。これらを近似する疑似クエリを構築するには、位置情報が意味的内容よりもより重要な役割を果たすことが分かりました。この洞察に動機づけられ、位置情報を用いた疑似クエリを介して出力トークンをシミュレートするデコード整合KVキャッシュ圧縮(DapQ)という新規で軽量な排除フレームワークを提案します。これにより、重要度評価のための有効な観測窓を確立し、出力トークンを近い生成文脈と整合させることができます。実際の生成コンテキストと密接に整合し、推論時のトークン排除をより正確に行えるようになります。複数のベンチマークとLLMにわたる広範な評価は、DapQが特に厳格なメモリ制約下で優れた性能を発揮することを示しており、例えばNIAHで3%のKVキャッシュ予算でほぼロスレスに近い性能(99.5%)を達成しています。}


