DepthArb:学習なしの深度仲裁による、遮蔽に頑健な画像合成

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案手法DepthArbは、テキストから画像を生成する拡散モデルで複数物体が密に重なる場面の“奥行き順の遮蔽関係”が破綻しやすい問題を、学習なし(training-free)で解決する枠組みとして提示された。
  • DepthArbはAttention Arbitration Modulation(AAM)で重なり領域における背面側の注目を抑制し、さらにSpatial Compactness Control(SCC)で注目の発散を抑えて構造整合性を保つことで、遮蔽の曖昧さを注意の競合として調停する。
  • 既存の学習なしレイアウト誘導手法が持ちがちな“深度順に無関係な硬い空間事前”による概念混線や不合理な遮蔽を改善し、モデル再学習なしに一貫した結果を狙える点が強調されている。
  • 遮蔽性能を体系的に評価するためのベンチマークOcclBenchも提案され、DepthArbは遮蔽精度と視覚品質の両面で最先端ベースラインを上回ると報告されている。
  • DepthArbはプラグアンドプレイとして拡散バックボーンの合成(compositional)能力を高める手法であり、生成モデルにおける“空間レイヤリング”の新しい見方を提供するとされている。

Abstract

テキストから画像への拡散モデルは、複数の物体の正確な遮蔽(オクルージョン)関係を合成する点でしばしば欠陥が見られます。特に、密に重なり合う領域において顕著です。既存の学習不要(トレーニングフリー)のレイアウト誘導手法は、主に深度順序に無関心な、剛体的な空間事前知識(空間プリオリ)に依存しています。その結果、概念の混ざり(コンセプトミキシング)や、論理的でない遮蔽が生じがちです。これらの制限に対処するために、我々は DepthArb を提案します。DepthArb は学習不要の枠組みであり、相互作用する物体間の注意(アテンション)の競合を仲裁することで、遮蔽の曖昧さを解消します。具体的には、DepthArb は 2 つの主要メカニズムを用います。第一に Attention Arbitration Modulation(AAM)で、重なり領域において背景の活性を抑制することで、深度順に並んだ可視性を強制します。第二に Spatial Compactness Control(SCC)で、注意の発散を抑え込むことで、構造的な完全性を保持します。これらのメカニズムにより、モデルの再学習なしで頑健な遮蔽生成が可能になります。この能力を体系的に評価するために、我々は OcclBench を提案します。OcclBench は多様な遮蔽シナリオを評価するための包括的なベンチマークです。大規模な評価の結果、DepthArb は遮蔽の正確性と視覚的な忠実性の両面で、最先端のベースラインを一貫して上回ることが示されます。プラグアンドプレイ方式の手法として、DepthArb は拡散バックボーンの合成能力をシームレスに強化し、生成モデルにおける空間的なレイヤリングに対する新しい視点を提供します。