要旨: ポストトレーニング量子化(PTQ)は、大規模な拡散モデルをデプロイする実用的な道筋だが、量子化ノイズはデノイジング過程で蓄積し、生成品質を低下させる可能性がある。私たちは Q-Drift を提案する。これは、量子化誤差を各デノイジングステップにおける暗黙の確率的摂動として扱い、周辺分布を保持するドリフト補正を導出する、原理的なサンプラー側の補正である。Q-Drift は較正からタイムステップごとの分散統計を推定し、実務上はフル精度と量子化の較正データを最小で 5 組用意するだけでよい。得られたサンプラー補正は、一般的なサンプラー、拡散モデル、および PTQ 手法とプラグアンドプレイで適用できる一方、推論時のオーバーヘッドはほとんどない。6つの多様なテキスト-画像モデル(DiT と U-Net を含む)、3つのサンプラー(Euler、flow-matching、DPM-Solver++)、および2つの PTQ 手法(SVDQuant、MixDQ)にわたり、Q-Drift は対応する量子化ベースラインに対してほとんどの設定で FID を改善し、PixArt-Sigma(SVDQuant W3A4)では最大で 4.59 の FID 削減を実現しつつ、CLIP スコアを維持する。
Q-Drift: 拡散モデルのサンプリングにおける量子化対応ドリフト補正
arXiv cs.CV / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- Q-Drift は、ポストトレーニング量子化の下で拡散モデルのサンプラー側ドリフト補正を導入し、量子化誤差を各デノイジングステップへの暗黙的な確率的摂動としてモデル化し、周辺分布を保持するドリフト補正を導出する。
- 本手法は較正からタイムステップごとの分散統計を推定し、完全精度と量子化後の実行を5組のペアで行うだけで済む。
- Euler、flow-matching、DPM-Solver++などの一般的なサンプラー、およびPTQ手法(SVDQuant、MixDQ)とプラグアンドプレイで動作し、推論時のオーバーヘッドはほとんど発生しない。
- 6つのテキスト-to-画像モデル、3つのサンプラー、2つのPTQ手法にまたがる実証的結果は、ほとんどの設定で量子化ベースラインよりFIDを改善し、PixArt-Sigma(SVDQuant W3A4)では最大4.59のFID低減を達成。
- この手法はCLIPスコアを保持しており、量子化による劣化を緩和しつつ、画像と言語の整合性を維持していることを示している。