広告

PolarQuant:ハダマール回転によるLLM圧縮のための最適ガウス重み量子化

arXiv cs.CL / 2026/4/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • PolarQuantは、量子化の前に重み分布を成形することで、ほぼ損失なしの圧縮を実現する後学習型のLLM重み量子化手法である。
  • この手法では、重みをブロック単位で正規化して単位超球面に写し、座標がガウス分布に概ね近づくようにWalsh-Hadamard回転を適用し、そのガウス分布に整合した重心(centroids)で量子化する。
  • アブレーション結果では、Hadamard回転だけで品質向上の約98%が達成されることが示されており、校正データなしでQwen3.5-9Bのパープレキシティを6.90(absmax Q5)から6.40(FP16に非常に近い、Δ = +0.03)へ改善できる。
  • PolarQuantはまた、前処理ステップとして機能し、後段のINT4量子化(torchao INT4)を改善する。パープレキシティを6.68から6.56に低下させつつ、高いスループット(約6.5 GB VRAMで43.1 tok/s)を維持する。
  • 著者らは公開コードおよびモデルを提供しており、この手法が圧縮/量子化パイプラインで直接検証・再利用できることを意図していることがうかがえる。

広告