Make Your LVLM KV Cache More Lightweight
arXiv cs.CV / 5/4/2026
📰 NewsDeveloper Stack & InfrastructureModels & Research
Key Points
- KVキャッシュは推論を効率化する重要部品だが、LVLMではプリフィル時に大量の視覚トークンを扱うためGPUメモリ負荷が大きいという課題がある。
- 提案手法LightKVは、視覚トークン埋め込み間の冗長性を活用し、テキストプロンプトに導かれたクロスモダリティのメッセージパッシングで情報を集約しつつプリフィル中に段階的に圧縮する。
- LightKVは視覚だけで圧縮する従来手法と異なり、プロンプトに応じて圧縮を制御する「prompt-aware guidance」を特徴としている。
- 8つのオープンソースLVLMと8つの公開ベンチマーク(MME、SeedBenchなど)で評価し、視覚トークンを元の55%に抑えても、視覚トークンのKVキャッシュを半減し、計算を最大40%削減しつつ汎用性能を維持でき、既存ベースラインより大きく上回る結果が得られた。
Related Articles
AnnouncementsBuilding a new enterprise AI services company with Blackstone, Hellman & Friedman, and Goldman Sachs
Anthropic News

Dara Khosrowshahi on replacing Uber drivers — and himself — with AI
The Verge

CLMA Frame Test
Dev.to

Governance and Liability in AI Agents: What I Built Trying to Answer Those Questions
Dev.to

Roundtable chat with Talkie-1930 and Gemma 4 31B
Reddit r/LocalLLaMA