Abstract
本論文では、単一画像から3Dシーンを生成するための、学習不要(training-free)のパイプラインであるExtend3Dを提案する。Extend3Dは、オブジェクト中心の3D生成モデルに基づいて構築されている。オブジェクト中心モデルにおける固定サイズの潜在空間が、広いシーンを表現する上で抱える制約を克服するために、潜在空間をx方向およびy方向へ拡張する。次に、拡張した潜在空間を重なり合うパッチに分割し、それぞれのパッチに対してオブジェクト中心の3D生成モデルを適用し、各タイムステップでそれらを結合する。画像条件付きのパッチ単位での3D生成では、画像と潜在パッチの間に厳密な空間的整合が必要となるため、単眼深度推定器からの点群プリオリを用いてシーンを初期化し、SDEditによって遮蔽された領域を反復的に改良する。我々は、3D構造の不完全さを3Dリファインメントにおけるノイズとして扱うことで、ある概念を通じた3Dコンプリートが可能になることを見出した。これをunder-noisingと呼ぶ。さらに、サブシーン生成におけるオブジェクト中心モデルの準最適性に対処するために、デノイズ中に拡張した潜在を最適化し、デノイジングの軌跡がサブシーンのダイナミクスと整合したままであることを保証する。そのために、幾何学的構造とテクスチャの忠実性を改善するための、3Dを意識した最適化目的関数を導入する。提案手法は、人間の選好と定量実験の双方から明らかなように、従来手法よりも良い結果をもたらすことを示す。