VQKV: ベクトル量子化による高忠実度・高圧縮率の KV キャッシュ圧縮
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- VQKV は、トレーニングを要しないベクトル量子化アプローチを導入し、大規模言語モデル(LLMs) の KV キャッシュを圧縮します。再学習なしで高い圧縮を実現します。
- 本手法は、LongBench ベンチマークでベースライン性能の 98.6% を維持しつつ、LLaMA3.1-8B で 82.8% の圧縮率を達成します。
- 同じメモリ使用量で約4.3倍の長さの生成を可能にし、リソース制約のある環境でのコンテキスト容量を拡張します。
- 数千の浮動小数点 KV 値を少数の整数インデックス集合で表現することで、限られたハードウェアでのデプロイ時のメモリ使用量を大幅に削減します。

