DepthArb:学習なしの深度仲裁による、遮蔽に頑健な画像合成
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提案手法DepthArbは、テキストから画像を生成する拡散モデルで複数物体が密に重なる場面の“奥行き順の遮蔽関係”が破綻しやすい問題を、学習なし(training-free)で解決する枠組みとして提示された。
- DepthArbはAttention Arbitration Modulation(AAM)で重なり領域における背面側の注目を抑制し、さらにSpatial Compactness Control(SCC)で注目の発散を抑えて構造整合性を保つことで、遮蔽の曖昧さを注意の競合として調停する。
- 既存の学習なしレイアウト誘導手法が持ちがちな“深度順に無関係な硬い空間事前”による概念混線や不合理な遮蔽を改善し、モデル再学習なしに一貫した結果を狙える点が強調されている。
- 遮蔽性能を体系的に評価するためのベンチマークOcclBenchも提案され、DepthArbは遮蔽精度と視覚品質の両面で最先端ベースラインを上回ると報告されている。
- DepthArbはプラグアンドプレイとして拡散バックボーンの合成(compositional)能力を高める手法であり、生成モデルにおける“空間レイヤリング”の新しい見方を提供するとされている。