情報理論に基づく統一的目的によるKVキャッシュ排出の再考

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長文生成時の大規模言語モデル推論におけるKV(キー・バリュー)キャッシュのメモリ負荷がボトルネックになる点を扱い、既存の排出(eviction)ポリシーが主に経験則に依存していて理論的根拠が乏しいと指摘している。
  • 注意機構を線形ガウスの代理モデルで捉え、情報ボトルネック原理の観点から、保持されたKVサブセットの有効な情報容量を特徴づける閉形式の相互情報量(mutual information)目的関数を導出している。
  • この定式化により、多様な既存のKV排出戦略がすべて「容量最大化」という同一の原理の近似として解釈できることが示され、排出が情報保存の問題として再定義される。
  • その洞察に基づき、CapKVという容量を意識した排出手法を提案し、統計的レバレッジスコアに基づく対数行列式近似で理論的に最大予測シグナルの保持を直接狙う。
  • 複数モデルおよび長文ベンチマークでの広範な実験により、CapKVが既存手法よりも一貫して優れ、メモリ効率と生成品質のトレードオフを改善することが示されている。

Abstract

キー・バリュー(KV)キャッシュは大規模言語モデルの推論に不可欠ですが、そのメモリオーバーヘッドが長いコンテキスト生成における重大なボトルネックとなっています。既存のエビクション(退避)ポリシーは主に経験的なヒューリスティックに依存しており、厳密な理論的基盤が欠けています。本研究では、情報ボトルネック原理の観点からKVキャッシュのエビクションを捉え直します。注意の線形ガウスの代理モデルの下で、保持されたKVキャッシュ部分集合の有効な情報容量を特徴づける閉形式の相互情報量目的関数を導出します。この定式化により、幅広い既存のエビクション戦略が、同一の容量最大化原理の異なる近似として解釈できることが明らかになります。この洞察に導かれ、CapKVという容量を意識したエビクション手法を提案します。これは統計的レバレッジスコアを用いた対数行列式(log-determinant)近似により、情報の保持を直接的に目標とします。このアプローチは、予測上の最大の信号を保持するという理論に基づく仕組みによって、ヒューリスティックな選択を置き換えます。複数のモデルと長いコンテキストのベンチマークにまたがる大規模な実験の結果、CapKVは一貫して従来手法を上回り、メモリ効率と生成の忠実度の間のより良いトレードオフを実現することが示されました。