低ビットLLM量子化のためのActivation Residual Hessian Quantization(ARHQ)に関する技術レポート

arXiv cs.LG / 2026/5/4

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、低ビットの活性化/重み量子化における誤差伝播を抑えることを目的とした、ポストトレーニングの重み分割手法「Activation Residual Hessian Quantization(ARHQ)」を提案します。
  • ARHQは、活性化量子化残差(G_x)から入力側の残差ヘッセ行列を構築し、誤差に敏感な重みの方向を解析的に特定して、高精度の低ランク分岐に分離します。
  • 分岐は、スケーリングされた重み行列(W G_x^{1/2})に対する閉形式の打ち切りSVDを用いて効率的に行います。
  • 実験ではQwen3-4B-Thinking-2507で、レイヤー単位のSNRが向上し、さらにZebraLogicにおける推論性能が攻撃的な量子化下でもより良く維持されることが示されています。
  • 著者は、提示されたGitHubリンクにコードを公開しています。