AI Navigate

MV-SAM3D: レイアウト認識型3D生成の適応的な多視点融合

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MV-SAM3Dは、3D潜在空間におけるマルチディフュージョン過程を定式化することにより、レイアウト認識型3D生成を多視点入力へ拡張し、より正確で一貫したシーン再構成を実現します。
  • 局所観測の信頼性に基づくビュー間融合を実現するため、アテンション-エントロピー重み付けと可視性重み付けという2つの適応的重み付け戦略を導入します。
  • このフレームワークは、生成中および生成後に衝突と接触の制約を課す物理を考慮した最適化を組み込み、物理的に妥当な複数オブジェクトのレイアウトを生み出します。
  • 重要な点として、MV-SAM3Dはトレーニング不要で、ベンチマークおよび実世界のマルチオブジェクトシーンにおいて再構成忠実度とレイアウトの妥当性を大幅に改善します。コードはGitHubに公開されています。

要旨:
最近の統一的な3D生成モデルは、単一の画像から高品質な3D資産を生成する点で顕著な進歩を遂げています。特に、SAM3Dのようなレイアウト認識型のアプローチは、複数のオブジェクトを再構成しつつそれらの空間配置を保持することで、実用的なシーンレベルの3D生成への道を開きます。しかし、現在の手法は単一視点入力に限られ、補完的な多視点観測を活用できません。一方、個別に推定されたオブジェクト姿勢は、相互貫通や浮遊アーティファクトといった物理的に妥当でないレイアウトを生み出すことがよくあります。

我々はMV-SAM3Dを提示します。これはトレーニング不要のフレームワークで、レイアウト認識型の3D生成を多視点の一貫性と物理的妥当性を備えるよう拡張します。多視点融合を3D潜在空間におけるマルチディフュージョン過程として定式化し、2つの適応的重み付け戦略――アテンション-エントロピー重み付けと可視性重み付け――を提案します。これにより、各視点が局所的な観測信頼性に応じて寄与するよう、信頼度を考慮した融合を実現します。複数オブジェクトの組成には、生成中および生成後の衝突と接触の制約を導入する物理を意識した最適化を行い、物理的に妥当なオブジェクト配置を得ます。標準ベンチマークおよび実世界のマルチオブジェクトシーンにおける実験は、追加のトレーニングなしで、再構成忠実度とレイアウトの妥当性を大幅に改善することを示しています。コードは https://github.com/devinli123/MV-SAM3D に公開されています。)