Points-to-3D: 点群事前情報を用いた構造認識型3D生成

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • Points-to-3Dは、TRELLIS潜在3D拡散モデルに基づく、点群事前情報を用いてジオメトリを制御可能な3D資産とシーン生成を実現する拡散ベースのフレームワークを提示します。
  • この手法は、純粋なノイズ潜在初期化を、点群事前情報に特化した入力形式へ置換し、TRELLIS内で訓練されたグローバルな構造インペインティング用ネットワークを含みます。
  • 段階的なサンプリング戦略(構造インペインティングに続き境界の細部補正)を採用し、入力プリオリから得られる可視領域を保ちつつ、グローバルなジオメトリを完成させます。
  • このアプローチは、正確な点群事前情報または単一画像からのVGGT推定点群を受け入れ、最先端のベースライン手法と比較してレンダリング品質と幾何学的忠実度において優れた性能を示します。

要約:
近年の3D生成の進展は、主に画像やテキストを条件とするモデルによって大きく推進されてきましたが、容易に利用可能な3D事前情報はまだ十分には活用されていません。
多くの実世界のシナリオでは、可視領域の点群はLiDARのようなアクティブセンサーやVGGTのようなフィードフォワード予測器から容易に取得でき、現在の手法が活用できていない明確な幾何学的制約を提供します。
本研究では、点群事前情報を幾何学的に制御可能な3D資産およびシーン生成のために活用する拡散ベースの枠組み、Points-to-3Dを提案します。
潜在的な3D拡散モデル TRELLIS に基づく Points-to-3D は、まず純粋なノイズのまばらな構造の潜在初期化を、点群事前情報に適合させた入力形式に置き換えます。
グローバルな構造を学習するよう設計されたタスク固有データ上で TRELLIS フレームワーク内で訓練された構造インペインティングネットワークは、その後、段階的サンプリング戦略(構造インペインティングの後に境界の微調整)を用いた推論に使用され、入力事前情報の可視領域を保持しつつ、グローバルなジオメトリを完成させます。
実際には、Points-to-3D は正確な点群事前情報、または単一画像から VGGT 推定された点群を入力として受け取ることができます。
物体とシーンの両方のシナリオでの実験は、レンダリング品質と幾何学的忠実度の観点で、最先端のベースラインより一貫して優れた性能を示しており、点群事前情報を明示的に埋め込むことが、より正確で構造的に制御可能な3D生成を実現する効果を際立たせています。