情報理論に基づく統一的目的によるKVキャッシュ排出の再考
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、長文生成時の大規模言語モデル推論におけるKV(キー・バリュー)キャッシュのメモリ負荷がボトルネックになる点を扱い、既存の排出(eviction)ポリシーが主に経験則に依存していて理論的根拠が乏しいと指摘している。
- 注意機構を線形ガウスの代理モデルで捉え、情報ボトルネック原理の観点から、保持されたKVサブセットの有効な情報容量を特徴づける閉形式の相互情報量(mutual information)目的関数を導出している。
- この定式化により、多様な既存のKV排出戦略がすべて「容量最大化」という同一の原理の近似として解釈できることが示され、排出が情報保存の問題として再定義される。
- その洞察に基づき、CapKVという容量を意識した排出手法を提案し、統計的レバレッジスコアに基づく対数行列式近似で理論的に最大予測シグナルの保持を直接狙う。
- 複数モデルおよび長文ベンチマークでの広範な実験により、CapKVが既存手法よりも一貫して優れ、メモリ効率と生成品質のトレードオフを改善することが示されている。
