勾配ベース強化学習による分布マッチング蒸留の誘導

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Distribution Matching Distillation(DMD)に代表される拡散蒸留が少数ステップでの生成を可能にしつつ、サンプリング速度と引き換えに品質が落ちることがある点を扱います。
  • 著者らは、強化学習(RL)を蒸留に単純に組み合わせると、生のサンプル評価がノイジーで蒸留の進行経路と整合しないため、報酬が不安定になり目的同士が衝突しうると指摘します。
  • そこで提案されるのがGDMD(Guiding Distribution Matching Distillation)で、報酬の仕組みを生のピクセル出力ではなく蒸留の勾配を最優先するように作り替えます。
  • DMDの勾配を暗黙のターゲット・テンソルとして解釈し直すことで、既存の報酬モデルが蒸留更新の品質を直接評価できるようにしています。
  • 実験では、少数ステップ生成において新たなSOTAを達成し、4ステップモデルが多段ステップの教師モデルを上回り、GenEvalと人間の嗜好指標でも従来のDMDR結果を大きく上回ったと報告されています。