ビジョン・言語モデル(VLM)は画像とテキストを用いてロボットの行動を計画しますが、それでも、どの行動を取るべきか、そしてそれをどこで実行すべきかを判断するのが難しいという課題があります。ほとんどのシステムでは、これらの判断を2つのステップに分けます。すなわち、VLMが自然言語で計画を生成し、別のモデルがそれを実行可能な行動へと変換します。このアプローチではしばしば[…]
投稿 GroundedPlanBench: Spatially grounded long-horizon task planning for robot manipulation は、最初に Microsoft Research に掲載されました。