要旨:
最近の統一的な3D生成モデルは、単一の画像から高品質な3D資産を生成する点で顕著な進歩を遂げています。特に、SAM3Dのようなレイアウト認識型のアプローチは、複数のオブジェクトを再構成しつつそれらの空間配置を保持することで、実用的なシーンレベルの3D生成への道を開きます。しかし、現在の手法は単一視点入力に限られ、補完的な多視点観測を活用できません。一方、個別に推定されたオブジェクト姿勢は、相互貫通や浮遊アーティファクトといった物理的に妥当でないレイアウトを生み出すことがよくあります。
我々はMV-SAM3Dを提示します。これはトレーニング不要のフレームワークで、レイアウト認識型の3D生成を多視点の一貫性と物理的妥当性を備えるよう拡張します。多視点融合を3D潜在空間におけるマルチディフュージョン過程として定式化し、2つの適応的重み付け戦略――アテンション-エントロピー重み付けと可視性重み付け――を提案します。これにより、各視点が局所的な観測信頼性に応じて寄与するよう、信頼度を考慮した融合を実現します。複数オブジェクトの組成には、生成中および生成後の衝突と接触の制約を導入する物理を意識した最適化を行い、物理的に妥当なオブジェクト配置を得ます。標準ベンチマークおよび実世界のマルチオブジェクトシーンにおける実験は、追加のトレーニングなしで、再構成忠実度とレイアウトの妥当性を大幅に改善することを示しています。コードは https://github.com/devinli123/MV-SAM3D に公開されています。)
