要旨:人間と協働するロボットは、自然言語の目標を実行可能で物理的に根拠づけられた決定へと変換しなければならない。例えば「冷蔵庫の右へ2メートル進む」といった指示を実行するには、意味的参照のグラウンディング、空間関係、そして3D空間内の計量的制約を根拠づける必要がある。最近の視覚言語モデル(VLM)は強力な意味的グラウンディング能力を示しているが、物理的に定義された空間における計量的制約を推論するようには明確には設計されていない。本研究では、最先端のVLMベースのグラウンディング手法が複雑な計量-意味論的言語クエリで苦戦することを経験的に示す。これを解決するために、MAPG(マルチエージェント確率的グラウンディング)を提案する。これは言語クエリを構造化されたサブコンポーネントに分解し、それぞれの成分をグラウンディングするためにVLMにクエリを投げるエージェント系フレームワークである。MAPGはその後、これらのグラウンド出力を確率的に組み合わせ、3D空間で計量的一貫性のある実行可能な決定を生み出す。私たちはHM-EQAベンチマークでMAPGを評価し、強力なベースラインに対して一貫した性能向上を示す。さらに、既存の言語グラウンディング評価のギャップを補うべく、メトリック-意味論的目標グラウンディングを評価するよう設計された新しいベンチマーク「MAPG-Bench」を導入する。構造化されたシーン表現が利用可能な場合にMAPGがシミュレーションを超えて転移することを示す、実世界のロボットデモンストレーションも併せて紹介する。
意味と測定: 視覚-言語ナビゲーションのためのマルチエージェント確率的グラウンディング
arXiv cs.CL / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MAPG(Multi-Agent Probabilistic Grounding、マルチエージェント確率的グラウンディング)は、自然言語の目標を構造化されたサブコンポーネントに分解し、それぞれを視覚言語モデルでグラウンディングすることで、3D空間における距離に基づく一貫性のある実用的な意思決定を可能にすることを提案する。
- 本フレームワークは、言語の各要素を個別にグラウンディングし、それらの結果を確率的に組み合わせることで、距離や相対位置といった測度的制約を満たす。
- MAPG は HM-EQA ベンチマークで評価され、強力なベースラインに対して一貫した改善を示し、著者らは測度・意味論的目標グラウンディングを特化して評価するための MAPG-Bench を導入している。
- 実世界のロボットデモンストレーションは、構造化されたシーン表現が利用可能な場合、MAPG がシミュレーションから現実の運用へ移行できることを示している。
- 本研究は、現在の VLM(視覚-言語モデル)グラウンディングが抱える測度推論の制限に対処し、言語理解と測度に基づくナビゲーションを橋渡しする、エージェント的でモジュール化されたアプローチを提案している。




