弱から強へのセグメント化ガイダンスによる拡散モデルの汎化改善

arXiv cs.CV / 2026/3/24

💬 オピニオン

要点

  • 本論文は、シミュレーションなしの学習目的と反復サンプリング軌道との不一致により生じる拡散モデルの汎化問題に取り組む。これにより、時間の経過とともに勾配誤差が蓄積され得る。

要約:拡散モデルは、反復的な精緻化(リファインメント)プロセスによって合成画像を生成する。しかし、シミュレーションなしの目的関数と反復プロセスとの不整合は、サンプリング軌道に沿って勾配誤差が蓄積する原因となることが多く、その結果、満足のいく性能が得られず、一般化にも失敗する。

Classifier Free Guidance(CFG)や AutoGuidance(AG)といったガイダンス手法は、主要な信号と劣った信号の間を外挿することで、より強い一般化を実現し、この問題を緩和する。経験的には成功しているものの、既存の代表的なガイダンス手法の有効な運用レジーム(動作領域)は依然として十分に調査されておらず、前提条件が与えられた場合に適切なガイダンス手法を選択する際に曖昧さが残る。

本研究ではまず、弱→強(weak-to-strong)の原理の観点から、CFG と AG によって表されるガイダンス手法の有効なレジームを切り分け、そして実証するための合成比較を行う。これに基づいて、双方の利点を取り込むハイブリッドな実装として、同原理にもとづく SGG を提案する。さらに、W2S(weak-to-strong)原理に SGG を組み合わせることで、それを学習目的(トレーニング目的)へ移植できることを示し、ガイダンスなしの拡散モデルの一般化能力を向上させる。

本提案は包括的な実験によって検証する。推論時には、SD3 および SD3.5 に対する評価により、SGG が既存の学習不要(トレーニングフリー)型ガイダンスの派生手法よりも優れていることを確認する。さらに、トランスフォーマー構成に対する学習時実験では、有効な移植と、条件付きおよび非条件付きの両設定における性能向上が示される。コードは https://github.com/851695e35/SGG で公開されている。