要旨: 本研究では、トランスフォーマーの注意機構におけるキー・バリュー(KV)キャッシュが、スパイク状のランダム行列モデルによってよく記述される、低ランクの
\emph{共有コンテキスト} 成分と、フルランクの \emph{各トークン} 残差への自然な分解を受け入れることを示す。 この観察は、二段階の圧縮パイプラインである eOptShrinkQ につながる。すなわち、最適な特異値シュリンク(eOptShrink)は共有構造を自動的に抽出し、残差――これは \emph{薄い殻(thin shell)性質} を、非局在化した座標を伴って満たす――は TurboQuant~\citep{zandieh2025turboquant} によって量子化される。TurboQuant は、近最適な歪み保証を備えた、最近提案されたパーベクトルのスカラー量子化器である。スカラー量子化が仮定する等方性を復元することで、スペクトル・デノイジングは、外れ値処理と専用の内積バイアス補正の両方の必要性を排除し、より良い再構成のためにそれらのビットを解放する。
ランダム行列理論に基づく理論的裏付けにより、3つの保証が得られる。すなわち、BBP 相転移による自動ランク選択、残差に対する内積バイアスの証明可能なほぼゼロ化、そして座標の非局在化による、ほぼ最適な量子化歪みの保証である。 実験では、eOptShrinkQ を Llama-3.1-8B および Ministral-8B で3つのレベルにわたって検証する。パーヘッドの MSE と内積の忠実度では、同等の品質において TurboQuant よりもエントリあたりほぼ1ビット節約できる。LongBench(16タスク)でのエンドツーエンドでは、eOptShrinkQ はエントリあたり \sim2.2 ビットで、TurboQuant の 3.0 ビットを上回る。さらに、マルチニードル検索では、eOptShrinkQ の 2.2 ビットが圧縮なしの FP16 と同等以上に一致しており、スペクトル・デノイジングが、検索集約型タスクに対する有益な正則化として働き得ることを示唆する。
eOptShrinkQ:最適なスペクトル・デノイジングと量子化によるニアロスレスKVキャッシュ圧縮
arXiv cs.LG / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、トランスフォーマのKVキャッシュが「共有コンテキスト」を表す低ランク成分と「各トークンの残差」を表すフルランク成分に自然に分解でき、スパイク付きランダム行列モデルでよく説明できると主張しています。
- eOptShrinkQはKV圧縮の2段階パイプラインで、まず最適な特異値シュリンクで共有構造を抽出し、その後残差をTurboQuantで量子化します。
- スペクトル・デノイジングによりスカラー量子化が前提とする等方性を復元し、外れ値処理や内積のバイアス補正の必要をなくしつつ、その分のビットを復元品質の向上に振り向けます。
- ランダム行列理論に基づく保証として、BBP相転移による自動ランク選択、残差に対する内積バイアスのほぼゼロ化、さらに座標の非局在性による近似的に最適な量子化歪みが示されます。
- Llama-3.1-8BおよびMinistral-8Bでの実験では、eOptShrinkQがTurboQuantよりビット当たりの品質が良く(LongBenchで約2.2ビット対3.0ビットなど)、検索に重いタスクでは未圧縮FP16と同等以上の性能を示し、スペクトル・デノイジングが有益な正則化になり得ることが示唆されます。




