概要: 人手による訓練や学習を一切行わない、疎な位置情報なしのRGB画像群から3D屋内シーンを再構成し、理解し、レンダリングするための新しいシステムを提案します。高密度な視点と、シーンごとの最適化を必要とする従来の放射輝度場アプローチとは異なり、私たちのパイプラインは、訓練もポーズ前処理も不要で、高忠実度な結果を実現します。システムは、次の3つの主要な革新を統合しています。(1) ワーピング(warp)ベースの異常除去戦略を用いて信頼できない幾何をフィルタリングする、頑健な点群再構成モジュール。(2) ワーピングに導かれた2Dから3Dへのインスタンス・リフティング機構により、2Dのセグメンテーションマスクを一貫した、インスタンスを意識した3D表現へと伝播させること。(3) 点群を新しい視点へ射影し、3Dを意識した拡散モデルでレンダリングを洗練する、新しいレンダリング手法。提案手法は、不足する幾何を補うために拡散の生成能力を活用し、特に疎な入力条件のもとでリアリティを高めます。さらに、点群のみを変更することで、インスタンス除去のようなオブジェクト単位のシーン編集を、再学習なしで自然にパイプラインでサポートできることを示します。提案結果は、シーン固有の最適化に依存せず、効率的で編集可能な3Dコンテンツ生成の新しい方向性を確立します。プロジェクトページ: https://jiatongxia.github.io/TID3R/
疎な画像からの拡散ベースのビュー合成と、訓練不要のインスタンス対応3Dシーン再構成
arXiv cs.CV / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、未位置合わせ(unposed)のRGB画像の疎な集合から3D屋内シーンを再構成しレンダリングするための、訓練不要(training-free)なパイプラインを提案する。これにより、多くの放射場(radiance-field)手法で必要となるシーンごとの最適化やポーズ前処理を回避する。
- 堅牢なポイントクラウド再構成手順と、ワーピング(warping)に基づく異常除去戦略を組み合わせることで、信頼性の低い幾何をフィルタし、入力が限られる状況でも再構成品質を向上させる。
- ワーピングに導かれた2D-to-3Dの仕組みにより、2Dセグメンテーションマスクを一貫したインスタンス対応の3D表現へと拡張(リフト)する。これにより、より構造化されたシーン理解を可能にする。
- 新規視点合成では、再構成したポイントクラウドを新しい視点へ投影し、3Dを考慮した拡散モデルで結果を洗練(refine)する。幾何が欠けていても、現実感を高める。
- 著者らは、オブジェクト単位の編集(例:インスタンスの除去)はポイントクラウドのみを変更することで実現でき、再学習なしに一貫した編集後のビューを生成できることを示し、効率的な編集可能な3Dコンテンツ生成を支える。

