VQKV: ベクトル量子化による高忠実度・高圧縮率の KV キャッシュ圧縮

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VQKV は、トレーニングを要しないベクトル量子化アプローチを導入し、大規模言語モデル(LLMs) の KV キャッシュを圧縮します。再学習なしで高い圧縮を実現します。
  • 本手法は、LongBench ベンチマークでベースライン性能の 98.6% を維持しつつ、LLaMA3.1-8B で 82.8% の圧縮率を達成します。
  • 同じメモリ使用量で約4.3倍の長さの生成を可能にし、リソース制約のある環境でのコンテキスト容量を拡張します。
  • 数千の浮動小数点 KV 値を少数の整数インデックス集合で表現することで、限られたハードウェアでのデプロイ時のメモリ使用量を大幅に削減します。

Abstract

大規模言語モデル(LLMs)の文脈長の増大は、キー・バリュー(KV)キャッシュを拡張し、リソースが限られた環境でのデプロイを制限します。従来のKVキャッシュ圧縮の訓練不要アプローチは、通常、低ランク近似やスカラー量子化に依存しますが、これらは高い圧縮率と高い再構成忠実度を同時に達成することができません。我々はVQKVを提案します。新規の訓練不要な手法で、ベクトル量子化(VQ)を導入し、モデル忠実度を保ちながら高圧縮のKV表現を得る方法であり、少数の整数インデックスだけで数千の浮動小数点値を表現できるようにします。結果として、VQKVはLLaMA3.1-8Bで82.8%の圧縮比を達成し、LongBenchでベースライン性能の98.6%を維持し、同じメモリフットプリントで生成長を4.3倍に拡張可能です。