概要: マイクロスケーリング浮動小数点数(MXFP)フォーマットは、現代のアクセラレータ・アーキテクチャ上で、マルチモーダル大規模言語モデル(MLLMs)および大規模言語モデル(LLMs)のデプロイに有望な標準として浮上しています。しかし、既存のポストトレーニング量子化(PTQ)手法、特に整数フォーマット向けに設計された回転ベースの技法は、MXFP4 に適用すると著しい性能低下を被ります。最近の研究は、この失敗を基本的なフォーマットの不一致に起因すると指摘しています。グローバルな直交回転は誤って外れ値エネルギーを量子化ブロック間に移送し、局所的なブロック単位のスケーリングを乱す新たな外れ値を誘発すると同時に、限られた量子化レンジを過小活用する双峰性の活性化分布を生み出すことがあるのです。これらの問題に対処するため、MXFPの粒度に合わせて変換を制限し、クロスブロックの外れ値伝搬を防ぐと同時に、分布整形を最適化するよう直交性の制約を緩和する、Block-wise Affine Transformation(BATQuant)を提案します。パラメータ効率を確保するために、Global and Private Kronecker(GPK)分解を導入してストレージおよび実行時オーバーヘッドを効果的に低減し、残留外れ値を抑制するためにブロック単位の学習可能クリッピングを組み込みます。MLLMおよびLLMの両方を対象とした広範な実験により、BATQuant は積極的なW4A4KV16構成の下で新たな最先端の結果を確立し、マルチモーダルベンチマークにおけるフル仕様精度の最大96.43%を回復し、さまざまなタスクにおいて既存手法を明確に上回ることを示しています。
BATQuant: 学習可能なブロック単位最適化による外れ値耐性MXFP4量子化
arXiv cs.CL / 2026/3/18
💬 オピニオンModels & Research
要点
- BATQuantは、ブロック単位のアフィン変換を導入し、MXFP4の粒度で回転を限定してブロック間の外れ値伝搬を抑制し、局所的な量子化挙動を保持します。
- 直交性制約を緩和し、Global and Private Kronecker(GPK)分解を用いてパラメータ格納量と実行時オーバーヘッドを削減します。
- ブロックごとに学習可能なクリッピングを組み込み、残留外れ値を抑制し、活性化分布をより効果的に整えます。
- マルチモーダルLLMとLLMを対象とした広範な実験により、W4A4KV16量子化下で最先端の結果を示し、マルチモーダルベンチマークでフル精度性能の最大96.43%を回復します。