BWLA:LLMにおけるW1AXポストトレーニング量子化の壁を破る

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文では、1ビット重みと低ビット活性(例:6ビット)を組み合わせても精度を大きく落とさないことを目指した、LLM向けポストトレーニング量子化フレームワーク「BWLA」を提案します。
  • 従来手法の主要な制約である活性の「ヘビーテイル」に起因する問題を、EM最小化で学習するOrthogonal-Kronecker Transformation(OKT)により重みの形状を変換し、問題となる極端な活性を抑制することで克服します。
  • さらに、Proximal SVD Projection(PSP)による軽量な低ランクのリファインメントで量子化しやすさを高めつつ、オーバーヘッドは最小限に抑えます。
  • Qwen3-32Bで、6ビット活性時のWikitext2 perplexityが11.92(既存SOTAで38)となり、5つのゼロショット課題で70%以上の改善、推論速度は3.26倍と報告されており、実用的なLLM圧縮・加速の可能性を示しています。

要旨: 大規模言語モデル(LLM)はNLPに大きな進展をもたらしましたが、それでもなお、実用的な展開を妨げるほどの大きなメモリと計算需要が残っています。バイナリ化は重みを1ビットに圧縮でき、計算および帯域幅コストを根本から低減します。しかし、既存の手法では活性のヘビーテイルに対処できないため、活性を高精度のまま保持する必要があり、真のエンドツーエンド加速ができません。この制約を克服するために、BWLA(Binarized Weights and Low-bit Activations)を提案します。これは、1ビットの重み量子化に加えて、低ビットの活性(例: 6ビット)を実現しつつ高い精度を維持する、最初のポストトレーニング量子化フレームワークです。直交-カルネカー変換(Orthogonal-Kronecker Transformation, OKT)は、EM最小化によって直交写像を学習し、単峰性の重みを対称的な双峰形式へと変換しながら、活性のテイルと非整合(incoherence)を抑制します。つづいて、近位SVD投影(Proximal SVD Projection, PSP)は、近位SVD投影による軽量な低ランクの改良を行い、最小限のオーバーヘッドで量子化可能性をさらに高めます。Qwen3-32Bにおいて、BWLAは6ビット活性でWikitext2のパープレキシティを11.92に到達させ(SOTAの38に対して)、5つのゼロショット課題を70%以上改善し、推論速度を3.26倍向上させます。これは、実世界でのLLM圧縮と加速に向けた強い可能性を示しています。

BWLA:LLMにおけるW1AXポストトレーニング量子化の壁を破る | AI Navigate