DAQ: 後学習LLMの重み圧縮のためのデルタ認識量子化(Delta-Aware Quantization)

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、獲得済みの知識を保持することを目的とした、データ不要の事後学習(post-training)量子化手法「Delta-Aware Quantization(DAQ)」を提案する。
  • 標準的な量子化の目的関数は、事後学習時のふるまいを符号化する小さな大きさの重み差分(ΔW)に対して不釣り合いに大きな損傷を与え、実質的に有害な正則化のように作用すると主張する。
  • DAQは、再構成誤差の指標を置き換え、2つのデルタ認識の目的関数(符号保持率[Sign Preservation Rate]とコサイン類似度[Cosine Similarity])を導入することで、基底の重み行列と事後学習済みの重み行列のみを用いて、ΔWの方向性の忠実度を直接最適化する。
  • FP8のパイロット研究では、DAQは標準的な量子化で失われるスタイル固有の能力を回復できると報告されており、全体的な汎化性能は維持する。
  • 本手法は、追加の学習/キャリブレーションデータを必要とせず、ふるまいの保持を狙う実用的な事後学習圧縮手法として位置づけられている。

Abstract

我々は、ポストトレーニング中に獲得された知識を保持するデータフリーのポストトレーニング量子化フレームワークであるDelta-Aware Quantization(DAQ)を提案する。標準的な量子化目的は再構成誤差を最小化するが、基盤モデルに対して無関係であるため、量子化ノイズが、ポストトレーニング挙動を符号化する小さな大きさのパラメータ差分(\Delta W)を不釣り合いに破壊してしまうことを許してしまう――この影響を、量子化を暗黙の正則化として捉える観点から分析する。DAQは、再構成ベースの目的を2つのデルタに着目した指標――符号(sign)保持率(Sign Preservation Rate)とコサイン類似度(Cosine Similarity)――に置き換えることで、\Delta Wの方向(directional)忠実性を直接最適化する。これにより、必要なのは基盤およびポストトレーニング済みの重み行列のみとなる。パイロットのFP8研究において、DAQは標準的な量子化で失われたスタイル固有の能力を回復しつつ、汎化性能を維持する。