SpatialFusion:3D幾何学的認識を内在化して統一型画像生成を可能にする手法

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、SpatialFusionという新しい枠組みを提案し、空間的に整合性の高い出力を可能にするために統一型画像生成モデルへ「内在的な3D幾何学的認識」を付与することを目的としています。
  • Mixture-of-Transformers(MoT)構成によりMLLMへ並列の空間トランスフォーマを追加し、共有自己注意を通じて意味コンテキストから対象画像のメートル深度マップを推定できるようにします。
  • 推定された明示的な幾何学的足場(ジオメトリ・スキャフォールド)は、専用の深度アダプタを介して拡散バックボーンへ注入され、生成時に精密な空間制約を与えます。
  • 進歩的な2段階学習戦略により、SpatialFusionは空間認識が重要なベンチマークで性能を大きく改善し、GPT-4oのような有力モデルを上回るとされています。
  • テキストから画像生成だけでなく、画像編集でも汎用的な性能向上が得られ、推論時のオーバーヘッドはごくわずかに抑えられると主張しています。

Abstract

近年の統一的な画像生成モデルは、セマンティック理解にMLLMを用い、画像生成に拡散バックボーンを用いることで目覚ましい成功を収めてきました。しかし、これらのモデルは、本質的に空間認識に関するタスクで基本的な制約を抱えています。これは、内在的な空間理解が欠けていること、そして生成時に明示的な幾何学的ガイダンスが存在しないことに起因します。本論文では、統一的な画像生成モデルに3Dの幾何学的気づきを内在化する新しい枠組みであるSpatialFusionを提案します。具体的には、まずMixture-of-Transformers(MoT)アーキテクチャを用いて、MLLMを並列の空間トランスフォーマーで拡張し、3Dの幾何学モデリング能力を高めます。MLLMと自己注意を共有することで、空間トランスフォーマーは、豊富なセマンティック文脈から対象画像のメトリック・深度マップを導出することを学習します。これらの明示的な幾何学的足場(スキャフォールド)は、その後、専用の深度アダプタを通じて拡散バックボーンへ注入され、空間的に一貫した画像生成のための精密な空間制約を提供します。段階的な2段階の学習戦略により、SpatialFusionは空間認識に関するベンチマークで大幅に性能を向上させ、GPT-4oのような主要モデルを特に上回ります。さらに、推論時のオーバーヘッドはごくわずかなまま、テキストから画像生成と画像編集の両方のシナリオにわたって汎化された性能向上を達成します。