GroundedPlanBench: ロボットによる操作のための、空間的に根ざした長期ホライズンのタスク計画

Microsoft Research Blog / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本記事は、ロボット操作において視覚言語モデル(VLM)を用いる際の課題を述べており、とくに長い時間幅の中で「どの行動を取るべきか」と「それをどこで行うべきか」を選択することが難しい点を扱っている。
  • 多くの既存システムでは、計画と実行を分離し、VLMが自然言語の計画を出力し、別のモデルがその計画を実行可能な行動へ変換するという構成を採るため、失敗につながる可能性があることが指摘されている。
  • 「GroundedPlanBench」は、空間情報に計画を結び付けることで、言語レベルの指示だけに依存するのではなく、長期ホライズンのタスク計画を改善することを目的とした、空間的に根ざしたアプローチ/データセット(およびそれに対応する枠組み)を提案している。
  • ロボット操作タスクにおけるエンドツーエンドのグラウンディング(根拠付け)を前進させ、行動選択と空間的な配置に関する意思決定の信頼性を高めることに焦点を当てている。

ビジョン・言語モデル(VLM)は画像とテキストを用いてロボットの行動を計画しますが、それでも、どの行動を取るべきか、そしてそれをどこで実行すべきかを判断するのが難しいという課題があります。ほとんどのシステムでは、これらの判断を2つのステップに分けます。すなわち、VLMが自然言語で計画を生成し、別のモデルがそれを実行可能な行動へと変換します。このアプローチではしばしば[…]

投稿 GroundedPlanBench: Spatially grounded long-horizon task planning for robot manipulation は、最初に Microsoft Research に掲載されました。