Dynamic Spatial GuidanceとMulti-Path Pruningによる学習不要の物体-背景合成T2I

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のテキストから画像への拡散モデルに共通する制約として、前景に偏り背景が十分に最適化されない点を指摘している。その結果、シーン全体の整合性が低下し、合成(コンポジショナル)制御が制限される。
  • 本論文では、モデルの再学習を必要とせずに拡散推論を再構成することで、前景–背景の相互作用を明示的にモデル化する、学習不要のサンプリング枠組みを提案する。
  • Dynamic Spatial Guidanceは、拡散過程の各タイムステップに依存するゲーティング機構を導入し、生成全体を通じて前景と背景への注意(アテンション)のバランスを調整する。
  • Multi-Path Pruningは、マルチパスの潜在探索を用い、アテンション統計と外部のセマンティック整合(アラインメント)信号に基づいて候補となる軌道を動的にフィルタリングし、物体–背景の制約をより適切に満たす。
  • 著者らは、物体–背景の合成性に関するベンチマークを導入し、複数の拡散バックボーンにわたって一貫した改善が得られることを報告している。

Abstract

既存のテキストから画像を生成する拡散モデルは、被写体の合成において優れている一方で、背景を受動的な副産物として扱い、最適化も不十分であるという持続的な前景バイアスを示します。この不均衡は、グローバルなシーンの整合性を損ない、構図(コンポジション)制御を制限します。そこで本研究では、この制約に対処するために、前景と背景の相互作用を明示的に考慮するように拡散サンプリングを再構成する、トレーニング不要の枠組みを提案します。本手法は2つの重要な要素から成ります。第一に、Dynamic Spatial Guidance(動的空間ガイダンス)では、拡散プロセス中の前景および背景の注意を調整する、ソフトなタイムステップ依存のゲーティング機構を導入し、空間的にバランスの取れた生成を可能にします。第二に、Multi-Path Pruning(マルチパス・プルーニング)では、マルチパスの潜在探索を行い、内部の注意統計と外部の意味整合(セマンティックアラインメント)信号の両方を用いて候補となる軌跡を動的にフィルタリングし、オブジェクトと背景の制約をより良く満たす軌跡を保持します。さらに、オブジェクトと背景の合成(コンポジション性)を評価するために特化して設計したベンチマークも開発しました。複数の拡散バックボーンにわたる広範な評価により、背景の整合性およびオブジェクト—背景の合成整合のいずれにおいても一貫した改善が示されました。