LVLMのKVキャッシュをより軽量化する方法

arXiv cs.CV / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

KVキャッシュは推論を効率化する重要部品だが、LVLMではプリフィル時に大量の視覚トークンを扱うためGPUメモリ負荷が大きいという課題がある。
提案手法LightKVは、視覚トークン埋め込み間の冗長性を活用し、テキストプロンプトに導かれたクロスモダリティのメッセージパッシングで情報を集約しつつプリフィル中に段階的に圧縮する。
LightKVは視覚だけで圧縮する従来手法と異なり、プロンプトに応じて圧縮を制御する「prompt-aware guidance」を特徴としている。
8つのオープンソースLVLMと8つの公開ベンチマーク（MME、SeedBenchなど）で評価し、視覚トークンを元の55%に抑えても、視覚トークンのKVキャッシュを半減し、計算を最大40%削減しつつ汎用性能を維持でき、既存ベースラインより大きく上回る結果が得られた。

要旨: キー・バリュー（KV）キャッシュは、推論における現代の大規模視覚言語モデル（LVLMs）の事実上の構成要素となっています。これは大規模言語モデル（LLMs）においてデコード効率を高めますが、LVLMsへの直接の導入は、プリフィル段階で処理される大量の視覚トークンに起因して、GPUメモリの大きなオーバーヘッドをもたらします。この問題に対処するために、本研究では、視覚トークン埋め込み間の冗長性を活用することでKVキャッシュのサイズを削減する新しいアプローチであるLightKVを提案します。テキストプロンプトにより導かれて、LightKVはクロスモダリティのメッセージパッシングを用いて視覚トークン全体から情報性の高いメッセージを集約し、プリフィル中にそれらを段階的に圧縮します。このプロンプトに応じた誘導は、先行する視覚のみの圧縮戦略と本手法を区別します。本研究では、MMEやSeedBenchといった8つの公開ベンチマークデータセットにまたがって、8つのオープンソースLVLMsでLightKVを評価します。実験結果は、元の視覚トークンの55%のみで、LightKV（a）が視覚トークンのKVキャッシュサイズを半分にし、（b）計算量を最大40%削減し、（c）汎用的な性能を維持しつつ、既存のベースラインを大幅に上回ることを示しています。