Abstract
我々は、ポストトレーニング中に獲得された知識を保持するデータフリーのポストトレーニング量子化フレームワークであるDelta-Aware Quantization(DAQ)を提案する。標準的な量子化目的は再構成誤差を最小化するが、基盤モデルに対して無関係であるため、量子化ノイズが、ポストトレーニング挙動を符号化する小さな大きさのパラメータ差分(\Delta W)を不釣り合いに破壊してしまうことを許してしまう――この影響を、量子化を暗黙の正則化として捉える観点から分析する。DAQは、再構成ベースの目的を2つのデルタに着目した指標――符号(sign)保持率(Sign Preservation Rate)とコサイン類似度(Cosine Similarity)――に置き換えることで、\Delta Wの方向(directional)忠実性を直接最適化する。これにより、必要なのは基盤およびポストトレーニング済みの重み行列のみとなる。パイロットのFP8研究において、DAQは標準的な量子化で失われたスタイル固有の能力を回復しつつ、汎化性能を維持する。