AXELRAM: 一度だけ量子化し、復号(デ量子化)は決して行わない
arXiv cs.LG / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AXELRAMは、固定の設計時コードブック(直交変換に基づく)によりKV復号(デ量子化)を回避しつつ、量子化されたKVキャッシュのインデックスから直接注意スコアを計算するスマートSRAMマクロのアーキテクチャとして提案されている。
- この手法は非対称な書き込み/読み出し経路を用い、書き込み時に変換し、読み出し時にはテーブル参照(ルックアップ)を行うことで、1クエリあたりの乗算回数を報告上102.4×削減している。
- 10個のランダムシードと3つのモデルにまたがる実験では安定性が一様ではない。たとえばQwen2.5-3Bのような一部のモデルでは、(Δ > 50となる)壊滅的なパープレキシティのスパイクが生じることがあり、量子化KVキャッシュに強い符号パターン感度があることを示唆している。
- 著者らは失敗の原因を層ごとのノルムの異質性(layer-wise norm heterogeneity)にあるとし、少量のキャリブレーションセットを用いた勾配不要の「一度だけ」の符号パターン選択を導入する。具体的には、200候補に対して8サンプルで選択することで、ハードウェアコストを追加せずに壊滅的スパイクを防ぐとしている。
- 本論文はarXivに投稿されており、コードは提示されたGitHubリポジトリで公開されている。これにより再現や追加評価が可能となる。
