要旨: 大規模言語モデル(LLM)のための新しい3ビット重み量子化フォーマット extbf{ITQ3
_S}(Interleaved Ternary Quantization -- Specialized)を提案します。このフォーマットは、Fast Walsh-Hadamard Transform(FWHT)に基づく回転領域適応量子化戦略である extbf{TurboQuant (TQ)} を統合しています。従来の3ビット量子化手法は、重い裾をもつ重み分布とチャネル間の外れ値によって引き起こされる壊滅的な精度低下に悩まされます。ITQ3
_S は、FWHT によって量子化の前に重み空間を事前回転させることで、外れ値のエネルギーをベクトル全体に効果的に分散し、均一な三値(ternary)符号化に適した近ガウス分布を誘導することで、この根本的な制限を解決します。
重要な点として、FWHT を完全に反転する数学的に厳密な復号手順を導出します。これは、256点の Inverse Walsh-Hadamard Transform を CUDA の共有メモリのロード段階に融合することで実現し、オフライン量子化とオンライン推論の間でゼロ誤差の往復忠実度を保証します。さらに、我々のパイプラインで処理される任意の重みベクトル について、復元が
mathbf{w}
\in \mathbb{R}^{256} を満たすことを示します。ここで
\|\hat{\mathbf{w}} - \mathbf{w}\|_2 \leq \epsilon_q は三値量子化グリッドのみによって決まり、同一のビット予算制約の下でのいかなる一様な3ビット基線よりも厳密に小さい値です。
\epsilon_q
実験的には、NVIDIA RTX 5090(Blackwell アーキテクチャ)上で、ITQ3
_S は FP16 基線と競争力のあるパープレキシティを達成しつつ、インタリーブド(interleaved)メモリレイアウトにおける最適化された DP4A および Tensor Core のスケジューリングにより、4ビット代替案の 1.5 imes 以上のスループットを提供します。これらの結果は、ITQ3
_S がコンシューマ向けハードウェア上での高忠実度 LLM 展開に向けた、実用的で数学的に裏付けられた解決策であることを示しています。
ITQ3_S: 回転領域スムージングと組み合わせたインタリーブド三値量子化による高忠実度3ビットLLM推論
arXiv cs.LG / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、インタリーブド三値コーディングと、Fast Walsh-Hadamard Transform(FWHT)を用いたTurboQuant型の回転領域スムージングを組み合わせた、LLM向けの新しい3ビット重み量子化フォーマット「ITQ3_S」を提案する。
- 従来の3ビット量子化は、重い裾を持つ重みやチャネル間の外れ値(アウトライヤ)によって失敗しがちであり、FWHTで事前に回転(プレローテーション)することで外れ値のエネルギーを拡散させ、より一様三値量子化に適した準ガウス分布を得られると主張する。
- 著者らは、三値グリッドが定める範囲内でのゼロ誤差な往復忠実度(round-trip fidelity)を目指し、FWHTを厳密に逆変換する数学的に厳密な復元(デquantization)手法を提示する。具体的には、256点の逆変換をCUDAの共有メモリへのローディングに融合し、復元誤差を抑える狙いである。
- NVIDIA RTX 5090での実験では、FP16と競合するパープレキシティ(perplexity)を報告しつつ、4ビット代替案に対して1.5倍超のスループットを達成する。これは、インタリーブド配置における最適化されたDP4AとTensor Coreのスケジューリングによるものとされる。
- 全体として、ITQ3_Sは、消費者向けハードウェア上でLLMを展開するための、品質と速度のバランスに優れた実用的な高忠実度量子化手法として位置付けられている。