RUQuant:大規模言語モデルに対する一様量子化の改善に向けて
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのポストトレーニング量子化(PTQ)における精度劣化の主因を「活性値分布が量子化区間内で非一様」であることに関連づけ、Lloyd-Max最適性条件に基づいて理論的に再検討しています。
- 提案手法RUQuantは、活性値をブロックに分け、複合の直交行列(Householder反射とGivens回転)で一様にサンプリングしたターゲットベクトルへ写像する2段階変換を行います。
- 2段階目ではTransformer出力の不一致を用いてグローバルなHouseholder反射を微調整し、量子化誤差をさらに低減します。
- 実験では13B LLMで微調整なしでもW6A6でフル精度の99.8%、W4A4で97%の性能を約1分で達成し、さらに微調整版ではより高精度となることを示しています。




