AI Navigate

Interact3D: インタラクティブなオブジェクトの構成的3D生成

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • Interact3Dは、1枚の画像から、遮蔽を克服し、物体同士の空間的関係を維持しつつ、物理的に妥当な相互作用を持つ3Dの構成物を生成するフレームワークを導入する。
  • この手法は、全体から局所への登録で主要オブジェクトをアンカーし、追加のアセットを統合するための微分可能なSDFベースの最適化を用いる2段階の構成パイプラインを使用する。
  • 閉ループの改良戦略は、Vision-Languageモデルを活用して多視点のレンダリングを分析し、修正用プロンプトを生成し、画像編集モジュールをガイドして自己修正を促す。
  • 実験では、幾何学的忠実性の向上、衝突の減少、衝突を考慮した構成における物体間の空間関係の一貫性が、従来の3D構成生成手法と比較して向上していることが示された。

要旨: 最近の3D生成の画期的な進展により、高忠実度の個々の資産の合成が可能になりました。しかし、単一画像から3Dの組成オブジェクトを生成することは、特に遮蔽下では依然として困難です。従来の手法は隠れた領域の幾何学的ディテールを劣化させることが多く、基礎となるオブジェクト間の空間的関係(OOR)を保持できません。私たちは、物理的に妥当な相互作用を持つ3Dの組成オブジェクトを生成することを目的とした、新しいフレームワーク Interact3D を提案します。私たちのアプローチは、先進的な生成の事前知識を活用して、統一された3Dガイダンスシーンを用いて高品質な個々の資産をキュレーションします。これらの資産を物理的に組み合わせるために、頑健な二段階の組成パイプラインを導入します。3Dガイダンスシーンに基づいて、主オブジェクトは厳密なグローバルからローカルへの幾何整列(レジストレーション)によってアンカーされ、続くジオメトリは、ジオメトリの交差を明示的にペナルティする微分可能なSigned Distance Field(SDF)ベースの最適化を用いて統合されます。難易度の高い衝突を減らすために、さらに閉ループのエージェント駆動による改良戦略を展開します。ビジョン-言語モデル(VLM)が構成されたシーンのマルチビューレンダリングを自動的に分析し、対象を絞った修正プロンプトを作成し、画像編集モジュールを導いて生成パイプラインを反復的に自己修正します。広範な実験により、Interact3D が衝突を考慮した有望な組成を、幾何学的忠実度の向上と一貫した空間関係とともに成功裏に生成することを示しています。