HeadQ：KVキャッシュ量子化のためのモデル可視の歪み計測とスコア空間補正

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、KVキャッシュ量子化はストレージ復元誤差（例：生のキーMSE）だけを最小化するのではなく、モデルから見える座標（スコア/ロジット空間）で評価・補正すべきだと主張しています。
その上で、HeadQというキー側の手法を提案し、校正で学習したクエリ基底上に低ランクの残差サイドコードを保持し、それを加法的な注意ロジット補正として適用します。
値については、固定された注意による読み出しから導くA^2重み付きのトークン歪みサロゲートを用い、注意への影響をより反映する評価指標を提示しています。
6つのモデルで検証した結果、スコア/Fisher空間の誤差は、生のキーMSEよりも注意KL発散をよりよく予測し、反例や制御実験によりストレージMSEに基づく代替案が否定されます。
KのみのWikiText-103デコード（値は密）では、HeadQが最も強い2ビット量子化行における過剰なパープレキシティを約84〜94%低減し、さらにフルKVの2ビット構成ではHeadQにA^2ベースの値ポリシーを組み合わせることで改善が確認されています。

要旨: KVキャッシュ量子化器は通常、注目（attention）がキーをロジットを通じて読み取り、値を注目重み付きの読出しによって読み取るにもかかわらず、格納空間の復元を最適化します。本研究では、永続的なキャッシュ誤差はモデルに見える座標（model-visible coordinates）で測定されるべきだと主張します。キーについては、見える対象は定数シフトを除いたスコア誤差（score error modulo constant shifts）であり、これにより HeadQ というキー側の手法が得られます。これは、キャリブレーションで学習したクエリ基底上に低ランクの残差サイドコードを格納し、それを加法的なロジット補正として適用します。値については、固定された注目の読出し（fixed-attention readout）によって $A^2$ で重み付けされたトークン歪みの代理量（surrogate）を得ます。6つのモデルにわたって、フィッシャー／スコア空間の誤差は、単なる生のキーMSEよりも、注目KLをはるかに良く予測します。同じ予算の反例（counterexamples）、ヌル空間での介入、クエリ-PCA による制御、符号の誤った HeadQ は、格納-MSE 系の代替案を反証します。対応する Pythia チェックポイントにより、主たる異常（main anomaly）が小規模モデルの低エントロピーな経路反転（route-flip）の境界に局在することが示されます。高密度な値を用いた K のみの WikiText-103 デコード実験では、HeadQ は最も強い 2ビットの行における過剰なパープレキシティ（excess perplexity）をおよそ $84$ -- $9464$ % 削減します。さらに補助的な全KVの2ビット合成（2-bit composition）では、HeadQ と $A^2$ の値ポリシーの組合せによって、6つすべてのモデルが改善します。