VQKV: ベクトル量子化による高忠実度・高圧縮率の KV キャッシュ圧縮

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

VQKV は、トレーニングを要しないベクトル量子化アプローチを導入し、大規模言語モデル（LLMs）の KV キャッシュを圧縮します。再学習なしで高い圧縮を実現します。
本手法は、LongBench ベンチマークでベースライン性能の 98.6% を維持しつつ、LLaMA3.1-8B で 82.8% の圧縮率を達成します。
同じメモリ使用量で約4.3倍の長さの生成を可能にし、リソース制約のある環境でのコンテキスト容量を拡張します。
数千の浮動小数点 KV 値を少数の整数インデックス集合で表現することで、限られたハードウェアでのデプロイ時のメモリ使用量を大幅に削減します。

Abstract

大規模言語モデル（LLMs）の文脈長の増大は、キー・バリュー（KV）キャッシュを拡張し、リソースが限られた環境でのデプロイを制限します。従来のKVキャッシュ圧縮の訓練不要アプローチは、通常、低ランク近似やスカラー量子化に依存しますが、これらは高い圧縮率と高い再構成忠実度を同時に達成することができません。我々はVQKVを提案します。新規の訓練不要な手法で、ベクトル量子化（VQ）を導入し、モデル忠実度を保ちながら高圧縮のKV表現を得る方法であり、少数の整数インデックスだけで数千の浮動小数点値を表現できるようにします。結果として、VQKVはLLaMA3.1-8Bで82.8%の圧縮比を達成し、LongBenchでベースライン性能の98.6%を維持し、同じメモリフットプリントで生成長を4.3倍に拡張可能です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/19Weeklyインサイトを見る →📅 3/18Dailyインサイトを見る →

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

Qiita

なんと397BのAIモデルをiPhoneで動かすことに成功

GIGAZINE

AI研究におけるボトルネックは人間

GIGAZINE

クレタ人のLLM

Zenn

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

VQKV: ベクトル量子化による高忠実度・高圧縮率の KV キャッシュ圧縮

要点

Abstract

💡 この記事が使われたインサイト

関連記事

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

なんと397BのAIモデルをiPhoneで動かすことに成功

AI研究におけるボトルネックは人間

クレタ人のLLM

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer