OjaKV:文脈対応型オンライン低ランクKVキャッシュ圧縮
arXiv cs.CL / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 長文コンテキストのLLM生成は、key-value(KV)キャッシュのメモリ使用量が大きく、長いプロンプトや一般的なバッチサイズではモデルの重みを上回ることさえあります。
- 既存の低ランクKVキャッシュ圧縮手法は、静的でオフラインに学習した部分空間に依存するため、入力データの分布が変わると性能が低下しがちです。
- OjaKVはハイブリッド戦略として、最初のトークンと直近のトークンをフルランクで保持し、中間トークンに低ランク圧縮を適用します。
- さらにOjaKVは、Ojaのアルゴリズムを用いて低ランクの射影基底をオンライン適応し、プロンプトのプリフィル時にしっかり更新し、デコーディング時には軽量に周期更新することで、変化する文脈に追随します。
- 実験ではOjaKVがFlashAttentionと互換であり、ゼロショット精度を維持、場合によっては向上できることが示され、特に長文の推論ベンチマークで効果が大きいことが報告されています(モデルの微調整は不要)。

