MAG-3D:3D理解のためのマルチエージェント・グラウンデッド推論

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、既製の視覚言語モデル(VLM)を用いて3Dシーンにおけるグラウンデッド推論を改善することを目的とした、学習不要(training-free)のマルチエージェント枠組みMAG-3Dを提案する。
  • MAG-3Dは、計画・グラウンディング・コーディングの3つの協調する専門エージェントを用いることで、タスクを分解し、クエリに関連する3D領域/対象を特定し、明示的な検証を伴う幾何学的推論を行う。
  • グラウンディングエージェントは、自由形式の3Dグラウンディングを実行し、大規模な3Dシーン観測から関連フレームを取得することで、オープンエンドなクエリを支援する。
  • コーディングエージェントは生成されたプログラムを実行して幾何学的推論の各ステップを検証し、固定化された、あるいは手作りのパイプラインでよく見られる信頼性の問題に対処する。
  • 著者らは、困難な3Dグラウンデッド推論ベンチマークにおいて最先端の結果を報告し、領域内で調整した手法と比べて、新しい環境に対する柔軟性の向上とゼロショットの汎化が実現できることを強調している。

要旨: 視覚言語モデル(VLMs)は、マルチモーダルな理解と推論において強力な性能を達成してきたが、3Dシーンに根ざした推論は依然として十分に調査されていない。効果的な3D推論には、正確なグラウンディングが不可欠である。自由形式の質問に答えるには、まず複雑なシーン内で、クエリに関連する対象物と領域を特定し、その後それらの空間的および幾何学的な関係について推論する必要がある。近年の手法では、根ざした3D推論において有望な可能性が示されている。しかし、それらはしばしば領域内のチューニングや手作りの推論パイプラインに依存しており、その結果として柔軟性が制限され、未知の環境へのゼロショットな汎化ができない。本研究では、汎用のVLMを用いた、トレーニング不要のマルチエージェント枠組みであるMAG-3Dを提案する。MAG-3Dは、タスク固有の学習や固定された推論手続きを頼りにするのではなく、3D推論における主要な課題に対処するために、専門エージェントを動的に調整する。具体的には、タスクを分解して推論プロセス全体を統括する計画エージェント、広範な3Dシーン観測から関連フレームを取得しつつ、自由形式の3Dグラウンディングを実行するグラウンディングエージェント、実行可能なプログラムによって柔軟な幾何学的推論と明示的な検証を行うコーディングエージェントを提案する。このマルチエージェントの協調的な設計により、多様なシーンにわたって柔軟なトレーニング不要の3D根ざし推論が可能になり、難度の高いベンチマークで最先端の性能を達成する。