要旨: 拡散モデルは、大量のサンプリングステップを要する代わりに、生成品質が優れているという特徴があります。
分布マッチング蒸留(Distribution Matching Distillation: DMD)を代表例とする蒸留手法によってこの問題を軽減できますが、サンプリングステップが限られる場合には性能劣化が依然として顕著です。
強化学習(RL)は、蒸留中の少数ステップ生成品質を向上させるために活用されており、教師モデルをさえ上回る可能性があります。
しかし、既存のアプローチは本質的に組合せ的であり、単にRLプロセスを蒸留プロセスに組み合わせるだけです。その結果、不要な複雑さが導入されます。
このギャップに対処するため、DMD蒸留とRLをシームレスに統一する手法としてAdvDMDを提案します。
具体的に、AdvDMDはDMD2からの敵対的に訓練された判別器を報酬モデルとして用い、生成画像には低いスコア、実画像には高いスコアを与えます。
それはデノイジング過程の中間状態と最終状態の両方で学習され、蒸留モデルでオンラインに更新されます。
これにより、サンプリング軌道全体を俯瞰的に監督でき、報酬ハッキングを抑制できます。
また、より安定で効率的な学習を可能にするために、DMDとRLに対して統一的なSDEの後向きシミュレーションと異なる学習スケジュールを採用します。
実験結果は、SD3.5において4ステップのAdvDMDがDPG-Bench上で元の40ステップモデルを上回ることを示し、さらにGenEvalではSD3に対して大きな性能向上を達成します。
Qwen-Imageでは、2ステップのAdvDMDがTwinFlowより優れた性能を示します。
AdvDMD:敵対的報酬がDMDと融合することで高品質な少数ステップ生成を実現
arXiv cs.CV / 2026/5/1
📰 ニュースModels & Research
要点
- 本論文では、Distribution Matching Distillation(DMD)と強化学習(RL)を統合して、拡散モデルの少数ステップ生成の品質を高める新手法AdvDMDを提案している。
- AdvDMDはDMD2の敵対的に学習された判別器を報酬モデルとして用い、生成画像に低スコアを、実画像に高スコアを与えることでサンプリングを改善する。
- 報酬モデルはデノイジング過程の中間状態と最終状態の両方で学習され、さらに蒸留モデルとオンラインで連動更新されるため、報酬ハッキングを抑えながらサンプリング軌道全体を俯瞰的に監督できる。
- 統一したSDEの後方シミュレーションと、DMDとRLのための異なる学習スケジュールにより、学習の安定性と効率を高めている。
- 実験では、4ステップのAdvDMDがSD3.5でDPG-Benchにおいて40ステップの元モデルを上回り、SD3ではGenEvalで大きな改善を示し、Qwen-Imageでは2ステップでTwinFlowより優れた性能を達成している。




