報酬を考慮した軌道シェーピングによる少ステップ視覚生成

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、極めて少ないサンプリング手順で高忠実度な画像生成を実現する課題を扱い、従来の蒸留手法が「教師の模倣」により学生の性能を上限づけてしまうと主張している。
Reward-Aware Trajectory Shaping（RATS）では、ホライズン・マッチングにより、重要なデノイズ段階で教師と学生の潜在軌道を整合させる。
RATSは、報酬に基づくゲートを導入し、両者の相対的な報酬成績に応じて教師の誘導を動的に調整することで、教師が優れている場合は誘導を強め、学生が追いつく（同等以上になる）場合は誘導を緩める。
軌道蒸留、報酬を考慮したゲーティング、嗜好（プレファレンス）整合を統合することで、追加の推論計算コストなしに高ステップ生成器から嗜好に関わる知識を移すことを狙っている。
実験結果によれば、RATSは少ステップ視覚生成における効率と品質のトレードオフを大きく改善し、少ステップ学生と強力な多ステップ生成器の品質ギャップを大幅に縮めるとしている。

要旨: 非常に少ないサンプリングステップで高忠実度な生成を達成することは、生成モデリングにおける長年の中心的目標である。既存のアプローチの多くは、元の多段階のノイズ除去プロセスを数ステップのジェネレータに圧縮するために、蒸留ベースの枠組みに依存している。しかし、このような手法では本質的に、生徒はより強力な多段階の教師を模倣することに縛られ、教師の能力が生徒の上限として課されてしまう。我々は、
\textbf{嗜好（プレファレンス）アラインメントの意識}を導入することで、生徒が報酬によって望ましい生成品質に向けて最適化でき、教師の厳格な模倣に制限されるのではなく、むしろ教師を上回る可能性があると主張する。そのために我々は、
\textbf{Reward-Aware Trajectory Shaping（RATS）}、すなわち嗜好に整合した少数ステップ生成のための軽量な枠組みを提案する。具体的には、教師と生徒の潜在軌道を、ホライズン・マッチングによって主要なノイズ除去段階で整合させる一方で、
\textbf{報酬を意識したゲート}を導入し、両者の相対的な報酬パフォーマンスに基づいて教師の誘導を適応的に調整する。教師がより高い報酬を達成している場合には軌道整形を強化し、生徒が教師に一致または上回った場合には緩和することで、報酬主導の改善を継続的に可能にする。軌道蒸留、報酬を意識したゲーティング、そして嗜好のアラインメントをシームレスに統合することで、RATSは、追加のテスト時計算オーバーヘッドを伴うことなく、高ステップ・ジェネレータから嗜好に関連する知識を効果的に転移する。実験結果は、RATSが少数ステップの視覚生成における効率--品質のトレードオフを大幅に改善し、少数ステップの生徒とより強力な多段階ジェネレータとのギャップを著しく縮めることを示している。