AI Navigate

OneWorld: 3D統一表現オートエンコーダー(3D-URAE)によるシーン生成の制御

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • OneWorldは、事前学習済みの3Dファウンデーションモデルに基づく3D統一表現オートエンコーダー(3D-URAE)を用い、整合性のある3D表現空間で拡散を直接提案する。
  • 視点間の構造整合性を強制するために、トークンレベルのCross-View-Correspondence(CVC)整合性損失を導入し、視点間の安定性を高める。
  • 訓練時と推論時の露出バイアスを軽減し、漂移させた表現と元の表現を混合して堅牢な3D多様体を形成するために、Manifold-Drift Forcing(MDF)を追加する。
  • 実験により、OneWorldは最先端の2Dベース手法と比較して、視点間の一貫性が優れている高品質な3Dシーンを生成することが示され、GitHubでコードが公開される予定である。

要約:既存の拡散ベースの3Dシーン生成手法は主に2Dの画像/動画潜在空間で動作しており、それによってビュー間の外観と幾何学的一貫性を維持することを本質的に困難にしています。これを埋めるべく、私たちはOneWorldを提案します。これは、一貫した3D表現空間内で直接拡散を行うフレームワークです。私たちのアプローチの中心は3D統一表現オートエンコーダ(3D-URAE)であり、それは事前学習済みの3Dファウンデーションモデルを活用し、幾何学中心の性質を外観を注入し意味論を蒸留して統一された3D潜在空間へと拡張します。さらに、トークンレベルのクロスビュー対応(CVC)整合性損失を導入し、ビュー間の構造的整合性を明示的に強制します。そして、Manifold-Drift Forcing(MDF)を提案し、訓練時と推論時の露出バイアスを緩和し、漂移した表現と元の表現を混合して堅牢な3D多様体を形成します。包括的な実験により、OneWorldは最先端の2Dベース手法と比較して、視点間の一貫性に優れた高品質な3Dシーンを生成することを示しています。私たちのコードはhttps://github.com/SensenGao/OneWorldで公開予定です。