Extend3D: 都市スケールの3D生成

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一画像からオブジェクト中心の3D生成モデルを中核エンジンとして用い、トレーニング不要で都市スケールの3Dシーンを生成する手法「Extend3D」を提案する。
この手法はモデルの潜在空間をx–y方向に拡張し、重なり合う潜在空間パッチを用いることで、オブジェクト中心の生成器を大規模シーン全体に適用し、時間ステップをまたいで連結できるようにする。
パッチ単位の画像コンディショニングにおける正しい空間整合性を確保するため、単眼深度推定器から得られる点群の事前分布で初期化し、SDEditにより遮蔽領域を反復的に洗練する。
著者らは、「アンダー・ノージング」として、3D構造の不完全性をリファイン時のノイズとして扱うことで3D補完を可能にすることを提案し、さらに拡張した潜在表現を最適化してサブシーンの整合性を向上させる。
実験およびユーザ志向の評価・定量評価により、Extend3Dは幾何学的構造とテクスチャの忠実度において先行手法を上回ることが示される。

Abstract

本論文では、単一画像から3Dシーンを生成するための、学習不要（training-free）のパイプラインであるExtend3Dを提案する。Extend3Dは、オブジェクト中心の3D生成モデルに基づいて構築されている。オブジェクト中心モデルにおける固定サイズの潜在空間が、広いシーンを表現する上で抱える制約を克服するために、潜在空間を

x

方向および

y

方向へ拡張する。次に、拡張した潜在空間を重なり合うパッチに分割し、それぞれのパッチに対してオブジェクト中心の3D生成モデルを適用し、各タイムステップでそれらを結合する。画像条件付きのパッチ単位での3D生成では、画像と潜在パッチの間に厳密な空間的整合が必要となるため、単眼深度推定器からの点群プリオリを用いてシーンを初期化し、SDEditによって遮蔽された領域を反復的に改良する。我々は、3D構造の不完全さを3Dリファインメントにおけるノイズとして扱うことで、ある概念を通じた3Dコンプリートが可能になることを見出した。これをunder-noisingと呼ぶ。さらに、サブシーン生成におけるオブジェクト中心モデルの準最適性に対処するために、デノイズ中に拡張した潜在を最適化し、デノイジングの軌跡がサブシーンのダイナミクスと整合したままであることを保証する。そのために、幾何学的構造とテクスチャの忠実性を改善するための、3Dを意識した最適化目的関数を導入する。提案手法は、人間の選好と定量実験の双方から明らかなように、従来手法よりも良い結果をもたらすことを示す。