RUQuant:大規模言語モデルに対する一様量子化の改善に向けて

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのポストトレーニング量子化(PTQ)における精度劣化の主因を「活性値分布が量子化区間内で非一様」であることに関連づけ、Lloyd-Max最適性条件に基づいて理論的に再検討しています。
  • 提案手法RUQuantは、活性値をブロックに分け、複合の直交行列(Householder反射とGivens回転)で一様にサンプリングしたターゲットベクトルへ写像する2段階変換を行います。
  • 2段階目ではTransformer出力の不一致を用いてグローバルなHouseholder反射を微調整し、量子化誤差をさらに低減します。
  • 実験では13B LLMで微調整なしでもW6A6でフル精度の99.8%、W4A4で97%の性能を約1分で達成し、さらに微調整版ではより高精度となることを示しています。

Abstract

大規模言語モデル(LLM)のサイズと複雑性の増大により、特にリソース制約下における導入効率に重大な課題が生じています。ポストトレーニング量子化(PTQ)は、再学習を必要とせずにモデルを圧縮することで、実用的な解決策として注目されています。既存の手法は、重みと活性の両方に対して一様量子化方式に焦点を当てることが多い一方で、活性分布が非一様であることに起因して、しばしば大幅な精度低下を招きます。本研究では、Lloyd-Max の最適性条件に基づく理論的観点から、活性量子化問題を改めて検討します。中核となる問題は、量子化区間内における活性の非一様な分布であり、これにより Lloyd-Max 基準の下での最適な量子化点が、区間の中央値からずれてしまう点にあることを明らかにします。この問題に対処するために、2段階の直交変換手法である RUQuant を提案します。第1段階では、活性をブロックに分割します。各ブロックは、Householder 反射と Givens 回転から構成される複合直交行列を用いて、均一にサンプリングされた目標ベクトルへと写像します。第2段階では、Transformer の出力の不一致を用いて量子化誤差をさらに最小化するために、グローバルな Householder 反射を微調整します。実験結果は、本手法がモデルの微調整を必要とせずに、ほぼ最適な量子化性能を達成することを示しています:RUQuant は 13B LLM に対して W6A6 で 99.8% のフル精度精度を達成し、W4A4 で 97% を達成し、約1分以内で実現されます。さらに、微調整版はより高い精度をもたらし、本手法の有効性とスケーラビリティを裏付けています。