広告

Think, Act, Build:視覚言語モデルによるエージェンティック・フレームワークで実現するゼロショット3Dビジュアル・グラウンディング

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、前処理済みの3D点群プロポーザルとのマッチングという一般的な静的パイプラインを回避する、ゼロショット3Dビジュアル・グラウンディングのためのエージェンティックな「Think, Act, Build(TAB)」フレームワークを提案する。
  • TABは、2D上で空間的意味論を解釈するために視覚言語モデルのエージェントを用い、3D構造はRGB-Dの生ストリームから直接再構成して生成するために決定論的なマルチビュー幾何を用いることで、問題を分離する。
  • 意味論のみに基づく2D追跡によるマルチビューのカバレッジ不足に対処するため、著者らは「Semantic-Anchored Geometric Expansion(意味アンカー付き幾何学的拡張)」を導入する。これは、参照クリップで目標をアンカーし、幾何学的なカメラ推論により観測されていないフレームへその3D位置を伝播する。
  • 本研究では、ベンチマーク評価への批判も行い、参照の曖昧さやカテゴリの誤りといった問題を指摘するとともに、より厳密な評価を可能にするテストクエリを改善する。
  • ScanReferおよびNr3Dに対する実験では、従来のゼロショット手法に比べて大幅な向上が報告され、オープンソースの構成要素のみを用いたにもかかわらず、完全に教師ありのベースラインを上回る結果も得られている。

広告