HybridKV：効率的なマルチモーダル大規模言語モデル推論のためのハイブリッドKVキャッシュ圧縮

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMの推論が、視覚トークンに応じてKVキャッシュが急速に増大し、デコード中はそのままGPUメモリ上に常駐し続ける必要があるため、遅くなりメモリ負荷も高くなると主張する。
既存のKV圧縮手法を批判し、それらが主に固定予算の割り当てに焦点を当てている点を指摘する。さらに、圧縮戦略を変えることで恩恵が得られる、ヘテロジニアスな注意ヘッド挙動（attention-head behaviors）の違いを考慮していないと述べる。
HybridKVは、3段階のハイブリッドフレームワークとして提案される。まず注意ヘッドを静的（static）と動的（dynamic）に分類し、次にトップダウンで階層的にKV予算を割り当て、最後に静的ヘッドにはテキスト優先のプルーニングを適用し、動的ヘッドにはチャンク単位のリトリーバル（取得）を適用する。
Qwen2.5-VL-7Bを用いた11のマルチモーダルベンチマークで、HybridKVはKVキャッシュのメモリを最大7.9×削減し、デコード速度を1.52×向上させつつ、性能低下を最小限に抑えながら維持できることを示す。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、テキスト・画像・動画にまたがる統一的な推論を進展させてきましたが、その推論（inference）は主要なキー・バリュー（KV）キャッシュの急速な増大によって妨げられています。各視覚入力は数千トークンに展開され、その結果、キャッシュはコンテキスト長に対して線形にスケールし、さらにデコードの間ずっとGPUメモリ上に常駐します。これにより、高性能GPUであっても許容できないほどのメモリオーバーヘッドとレイテンシが生じます。一般的な解決策は、固定された割り当て予算のもとで、異なる粒度に応じてキャッシュを圧縮することです。具体的には、トークンレベルでは均一に重要度の低いトークンを破棄し、層（レイヤ）レベルでは層ごとに保持を変え、ヘッドレベルでは予算をヘッド間で再配分します。しかし、これらの手法は割り当て（allocation）で止まっており、異なる圧縮戦略を必要とする注意（attention）ヘッドの不均一な挙動を見落としています。そこで本研究では、3つの段階で補完的な戦略を統合するハイブリッドKVキャッシュ圧縮フレームワーク「HybridKV」を提案します。まず、テキスト中心の注意を用いて、ヘッドを静的（static）型または動的（dynamic）型に分類します。次に、階層的なトップダウンの予算割り当て方式によりKV予算を割り当てます。最後に、静的ヘッドはテキスト優先のプルーニングで圧縮し、動的ヘッドはチャンク単位のリトリーバル（retrieval）によって圧縮します。Qwen2.5-VL-7Bを用いた11のマルチモーダルベンチマークでの実験では、HybridKVがKVキャッシュのメモリを最大 $7.9\times$ 削減し、フルキャッシュのMLLMに対してほとんど性能低下がない、あるいは相対的にさらに高い性能を維持しつつ、デコードを $1.52\times$ 高速化することを示しました。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

HybridKV：効率的なマルチモーダル大規模言語モデル推論のためのハイブリッドKVキャッシュ圧縮

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化