要旨: 直接の3Dデータ取得が高価、または実行不可能である場合に、単一画像から柔軟な3Dシーンを作成することは重要です。本稿では、NavCrafterという新しい枠組みを提案し、カメラの制御性と時間的・空間的な一貫性を備えた新規視点の動画シーケンスを合成することで、単一画像から3Dシーンを探索します。NavCrafterは動画拡散モデルを活用して豊富な3D事前知識を捉え、シーンのカバー範囲を段階的に拡張するためのジオメトリを意識した拡張戦略を採用します。制御可能なマルチビュー合成を可能にするために、デュアルブランチのカメラインジェクションとアテンション・モジュレーションにより、多様な軌道を通じて拡散モデルを条件付けするマルチステージのカメラ制御メカニズムを導入します。さらに、衝突を意識したカメラ軌道プランナーと、深度整合の教師信号、構造的正則化、改良を備えた強化版の3Dガウススプラッティング(3DGS)パイプラインも提案します。大規模な実験により、NavCrafterが大きな視点シフト下で最先端の新規視点合成を達成し、3D再構成の忠実度を大幅に改善することが示されます。
NavCrafter:単一画像から3Dシーンを探る
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- NavCrafterは、時間的・空間的整合性を維持しながら制御可能な新規視点ビデオ系列を生成することで、単一画像から柔軟な3Dシーンを生成するためのフレームワークとして提示されます。
- この手法では、ビデオ拡散モデルを用いて豊かな3D事前知識を学習し、幾何学に配慮した拡張戦略を適用して、シーンのカバー範囲を段階的に広げます。
- さらに、複数段階のカメラ制御メカニズム(デュアルブランチのカメラ注入に加え、注意(アテンション)の変調)を導入し、軌道(トラジェクトリ)に条件付けされた、制御可能なマルチビュー合成を可能にします。
- システムには、衝突を考慮したカメラ軌道計画と、深度整合による監督、構造的正則化、リファインメントを備えた改良版3Dガウススプラッティングのパイプラインが含まれます。
- 要旨で報告されている実験結果によれば、大きな視点変化に対する新規視点合成において最先端の性能が示され、3D再構成の忠実度も向上しています。



