PolarQuant:ハダマール回転によるLLM圧縮のための最適ガウス重み量子化
arXiv cs.CL / 2026/4/1
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- PolarQuantは、量子化の前に重み分布を成形することで、ほぼ損失なしの圧縮を実現する後学習型のLLM重み量子化手法である。
- この手法では、重みをブロック単位で正規化して単位超球面に写し、座標がガウス分布に概ね近づくようにWalsh-Hadamard回転を適用し、そのガウス分布に整合した重心(centroids)で量子化する。
- アブレーション結果では、Hadamard回転だけで品質向上の約98%が達成されることが示されており、校正データなしでQwen3.5-9Bのパープレキシティを6.90(absmax Q5)から6.40(FP16に非常に近い、Δ = +0.03)へ改善できる。
- PolarQuantはまた、前処理ステップとして機能し、後段のINT4量子化(torchao INT4)を改善する。パープレキシティを6.68から6.56に低下させつつ、高いスループット(約6.5 GB VRAMで43.1 tok/s)を維持する。
- 著者らは公開コードおよびモデルを提供しており、この手法が圧縮/量子化パイプラインで直接検証・再利用できることを意図していることがうかがえる。




