制御可能な生成の改善:$x_0$-スーパービジョンによる高速学習とより良い性能
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから画像を生成する拡散/フローモデルにおける重要な制約、すなわち自然言語だけでは画像のレイアウトを正確に制御できない点に取り組み、追加の条件付けを用いた制御可能な生成手法の必要性を示している。
- 先行研究では、通常、拡張された制御可能ネットワークを元のモデルと同じ損失関数で学習するが、著者らはこれが収束に至るまで長い学習時間を招きうることを示している。
- 著者らは、$x_0$-スーパービジョン(クリーンな目標画像への直接的な教師信号)または拡散損失の同等の再重み付けによって、制御可能な拡散の学習目的を見直し、収束を速めることを提案する。
- 複数の制御設定にわたる実験では、mAUCC(測定指標)で最大2倍の高速な収束が報告されるとともに、視覚的品質および条件付け精度の改善も確認されている。
- 著者らは、リンクされたGitHubリポジトリにオープンソースの実装を提供している。




