要約: 我々は、Fast Walsh-Hadamard領域において角度を量子化することでKVキャッシュのエントリを圧縮します。このとき、ランダムな対角回転により、連続する要素のペアが単位円上で概ね一様に分布するようになります。さらに、この角度量子化器に対し、層ごとのearly-boostを拡張します。これは各層においてKとVのコードブックサイズを独立に設定し、モデル固有の重要な層の部分集合にはより高い精度を割り当てます。7つのモデル(1B〜7Bパラメータ)において、層ごとのearly-boostは4つのモデルでロスレス圧縮を達成し、7つ中6つのモデルではほぼロスレスな品質を達成します。角度ビットは要素あたり3.28〜3.67ビットです。非対称ノルム量子化(キーは8-bit、値は対数空間で4-bit)では、Mistral-7Bにおいて要素あたり合計6.56ビットを実現し、ペルプレキシティの劣化は+0.0014で、かつ校正データなしです。層グループの感度分析により、モデル固有のボトルネックパターンが明らかになります。具体的には、Kが支配的な層とVが支配的な層の違い、ならびに、精度を上げることで品質が悪化する負の転移層が含まれます。
TurboAngle: 一様角度量子化によるニアロスレスKVキャッシュ圧縮
arXiv cs.LG / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- TurboAngleは、Fast Walsh-Hadamardドメインでランダムな対角回転を適用した後に角度を量子化することで、連続する要素ペアが単位円上でより一様に分布するようにし、トランスフォーマのKVキャッシュを圧縮することを提案する。
- この手法は、層ごとに独立してKとVのコードブックサイズを選択する「early-boost」メカニズムを追加し、モデル固有の重要な層の部分集合に対して高い精度を与える。
- 7つのモデル(1B〜7Bパラメータ)にわたる実験では、4モデルでロスレス圧縮を達成し、7つ中6モデルでニアロスレスの品質を示し、角度ビットあたりの要素数は概ね3.28〜3.67ビットである。
- 非対称量子化のバリアント(8-bitキー、4-bitの対数空間値)は、Mistral-7Bで合計6.56ビット/要素を達成し、パープレキシティの劣化は+0.0014のみで、キャリブレーションデータ不要である。
- 感度分析により、モデル固有のボトルネックパターンが特定され、K優勢の層とV優勢の層、さらに精度を増やすことで品質が悪化し得る負の転移(negative-transfer)層が含まれる。



