ノイズに強いゼロショット3Dビジュアルグラウンディングのための、複数で一貫した2D-3D対応付け

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、オープンボキャブラリの3D提案の品質が低いことによる問題を解決する、ロバストなゼロショット3Dビジュアルグラウンディングの新フレームワークMCM-VGを提案しています。
  • MCM-VGは、複数の一貫した2D-3D対応付けを3つのモジュールで強制し、その信頼性を高めます(セマンティック・アライメント:LLM駆動のクエリ解析と粗い〜細かいマッチング、インスタンス・レクティフィケーション:VLM誘導の2Dセグメンテーションで欠損ターゲットを復元し、正確な3D形状を構築、ビュー・ポイント・ディスティレーション:カメラ方向のクラスタリングで冗長な多視点推論を削減)。
  • 最終的なターゲットの曖昧さ解消は、選定したRGBフレームと俯瞰(Bird’s Eye View)マップをコンパクトな視覚プロンプトとして組み合わせ、視覚言語モデルに対する複数選択の推論タスクとして定式化します。
  • ScanReferおよびNr3Dでの実験により、ゼロショット3Dビジュアルグラウンディングにおいて最先端性能を示し、ScanReferではAcc@0.25が62.0%、Acc@0.5が53.6%を達成し、従来ベースラインをそれぞれ6.4%と4.0%上回りました。
  • 全体として本研究は、3D環境におけるゼロショットのローカライズと推論をより正確かつ確実にし、オープンワールドの組込みAIの発展に寄与します。

概要: ゼロショット3Dビジュアルグラウンディング(3DVG)は、オープンワールドの身体性を備えたAIにとって重要な能力です。しかし、既存手法は根本的に、オープン語彙の3D提案の品質が低いことによってボトルネック化しています。具体的には、不正確なカテゴリや不正確な幾何を伴うほか、網羅的なマルチビュー推論による空間的冗長性も問題になります。これらの課題に対処するために、本論文ではMCM-VGという新しい枠組みを提案し、Multiple Consistent 2D-3D Mappings(複数の整合的な2D-3D対応)を明示的に確立することで、堅牢なゼロショット3DVGを実現します。ノイズの多い3Dセグメントに受動的に依存するのではなく、MCM-VGは、3つの基本的な次元にまたがって2D-3Dの整合性を強制することで、精密な対象のローカライズと信頼できる推論を達成します。第一に、Semantic Alignmentモジュールが、LLM主導のクエリ解析と粗いから細かいまでの2D-3Dマッチングによってカテゴリの不一致を補正します。第二に、Instance Rectificationモジュールは、VLMによって導かれた2Dセグメンテーションを活用して、欠けている対象を再構築し、これらの信頼できる視覚的事前知識を逆投影することで、正確な3D幾何を確立します。最後に、空間的冗長性を排除するために、Viewpoint Distillationモジュールが3Dカメラ方向をクラスタリングし、最適なフレームを抽出します。これらの最適なRGBフレームと、Bird's Eye View(俯瞰)マップを組み合わせて、簡潔な視覚プロンプト集合を構成し、Vision-Language Modelsに対して、最終的な対象の曖昧さ解消を複数選択の推論タスクとして定式化します。
ScanReferおよびNr3Dベンチマークにおける大規模な評価により、MCM-VGがゼロショット3Dビジュアルグラウンディングにおいて新たな最先端(SOTA)を設定することが示されます。特筆すべきことに、ScanReferでAcc@0.25およびAcc@0.5においてそれぞれ62.0
%および53.6
%を達成し、従来のベースラインをそれぞれ6.4
%および4.0
%という大きな差で上回っています。