Think, Act, Build：視覚言語モデルによるエージェンティック・フレームワークで実現するゼロショット3Dビジュアル・グラウンディング

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、前処理済みの3D点群プロポーザルとのマッチングという一般的な静的パイプラインを回避する、ゼロショット3Dビジュアル・グラウンディングのためのエージェンティックな「Think, Act, Build（TAB）」フレームワークを提案する。
TABは、2D上で空間的意味論を解釈するために視覚言語モデルのエージェントを用い、3D構造はRGB-Dの生ストリームから直接再構成して生成するために決定論的なマルチビュー幾何を用いることで、問題を分離する。
意味論のみに基づく2D追跡によるマルチビューのカバレッジ不足に対処するため、著者らは「Semantic-Anchored Geometric Expansion（意味アンカー付き幾何学的拡張）」を導入する。これは、参照クリップで目標をアンカーし、幾何学的なカメラ推論により観測されていないフレームへその3D位置を伝播する。
本研究では、ベンチマーク評価への批判も行い、参照の曖昧さやカテゴリの誤りといった問題を指摘するとともに、より厳密な評価を可能にするテストクエリを改善する。
ScanReferおよびNr3Dに対する実験では、従来のゼロショット手法に比べて大幅な向上が報告され、オープンソースの構成要素のみを用いたにもかかわらず、完全に教師ありのベースラインを上回る結果も得られている。