Dynamic Spatial GuidanceとMulti-Path Pruningによる学習不要の物体-背景合成T2I
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のテキストから画像への拡散モデルに共通する制約として、前景に偏り背景が十分に最適化されない点を指摘している。その結果、シーン全体の整合性が低下し、合成(コンポジショナル)制御が制限される。
- 本論文では、モデルの再学習を必要とせずに拡散推論を再構成することで、前景–背景の相互作用を明示的にモデル化する、学習不要のサンプリング枠組みを提案する。
- Dynamic Spatial Guidanceは、拡散過程の各タイムステップに依存するゲーティング機構を導入し、生成全体を通じて前景と背景への注意(アテンション)のバランスを調整する。
- Multi-Path Pruningは、マルチパスの潜在探索を用い、アテンション統計と外部のセマンティック整合(アラインメント)信号に基づいて候補となる軌道を動的にフィルタリングし、物体–背景の制約をより適切に満たす。
- 著者らは、物体–背景の合成性に関するベンチマークを導入し、複数の拡散バックボーンにわたって一貫した改善が得られることを報告している。




