SpatialFusion:3D幾何学的認識を内在化して統一型画像生成を可能にする手法
arXiv cs.CV / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、SpatialFusionという新しい枠組みを提案し、空間的に整合性の高い出力を可能にするために統一型画像生成モデルへ「内在的な3D幾何学的認識」を付与することを目的としています。
- Mixture-of-Transformers(MoT)構成によりMLLMへ並列の空間トランスフォーマを追加し、共有自己注意を通じて意味コンテキストから対象画像のメートル深度マップを推定できるようにします。
- 推定された明示的な幾何学的足場(ジオメトリ・スキャフォールド)は、専用の深度アダプタを介して拡散バックボーンへ注入され、生成時に精密な空間制約を与えます。
- 進歩的な2段階学習戦略により、SpatialFusionは空間認識が重要なベンチマークで性能を大きく改善し、GPT-4oのような有力モデルを上回るとされています。
- テキストから画像生成だけでなく、画像編集でも汎用的な性能向上が得られ、推論時のオーバーヘッドはごくわずかに抑えられると主張しています。



