EchoKV:類似性ベースの再構成による効率的なKVキャッシュ圧縮

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EchoKVは、LLMの長文推論でボトルネックになりやすいKVキャッシュのメモリ需要を圧縮しつつ、通常精度と圧縮推論をオンデマンドで切り替えられる柔軟性を目指した手法です。
  • 従来の不可逆な変換による低ランク圧縮とは異なり、EchoKVは部分的に保持したKVから残差成分を軽量ネットワークで再構成し、層間・層内の類似性を活用します。
  • 2段階のファインチューニングにより、7Bモデルでも約1A100 GPU-hour程度の低コスト・高速な学習で適用可能とされています。
  • LongBenchとRULERで、複数の圧縮率において既存手法を一貫して上回りつつ、短文シナリオでは高スループットを維持できたと報告しています。