HybridKV:効率的なマルチモーダル大規模言語モデル推論のためのハイブリッドKVキャッシュ圧縮

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMの推論が、視覚トークンに応じてKVキャッシュが急速に増大し、デコード中はそのままGPUメモリ上に常駐し続ける必要があるため、遅くなりメモリ負荷も高くなると主張する。
  • 既存のKV圧縮手法を批判し、それらが主に固定予算の割り当てに焦点を当てている点を指摘する。さらに、圧縮戦略を変えることで恩恵が得られる、ヘテロジニアスな注意ヘッド挙動(attention-head behaviors)の違いを考慮していないと述べる。
  • HybridKVは、3段階のハイブリッドフレームワークとして提案される。まず注意ヘッドを静的(static)と動的(dynamic)に分類し、次にトップダウンで階層的にKV予算を割り当て、最後に静的ヘッドにはテキスト優先のプルーニングを適用し、動的ヘッドにはチャンク単位のリトリーバル(取得)を適用する。
  • Qwen2.5-VL-7Bを用いた11のマルチモーダルベンチマークで、HybridKVはKVキャッシュのメモリを最大7.9×削減し、デコード速度を1.52×向上させつつ、性能低下を最小限に抑えながら維持できることを示す。

要旨: マルチモーダル大規模言語モデル(MLLMs)は、テキスト・画像・動画にまたがる統一的な推論を進展させてきましたが、その推論(inference)は主要なキー・バリュー(KV)キャッシュの急速な増大によって妨げられています。各視覚入力は数千トークンに展開され、その結果、キャッシュはコンテキスト長に対して線形にスケールし、さらにデコードの間ずっとGPUメモリ上に常駐します。これにより、高性能GPUであっても許容できないほどのメモリオーバーヘッドとレイテンシが生じます。一般的な解決策は、固定された割り当て予算のもとで、異なる粒度に応じてキャッシュを圧縮することです。具体的には、トークンレベルでは均一に重要度の低いトークンを破棄し、層(レイヤ)レベルでは層ごとに保持を変え、ヘッドレベルでは予算をヘッド間で再配分します。しかし、これらの手法は割り当て(allocation)で止まっており、異なる圧縮戦略を必要とする注意(attention)ヘッドの不均一な挙動を見落としています。そこで本研究では、3つの段階で補完的な戦略を統合するハイブリッドKVキャッシュ圧縮フレームワーク「HybridKV」を提案します。まず、テキスト中心の注意を用いて、ヘッドを静的(static)型または動的(dynamic)型に分類します。次に、階層的なトップダウンの予算割り当て方式によりKV予算を割り当てます。最後に、静的ヘッドはテキスト優先のプルーニングで圧縮し、動的ヘッドはチャンク単位のリトリーバル(retrieval)によって圧縮します。Qwen2.5-VL-7Bを用いた11のマルチモーダルベンチマークでの実験では、HybridKVがKVキャッシュのメモリを最大7.9\times削減し、フルキャッシュのMLLMに対してほとんど性能低下がない、あるいは相対的にさらに高い性能を維持しつつ、デコードを1.52\times高速化することを示しました。