RoboAgent:基本的な機能を連鎖して行う身体化タスク計画
arXiv cs.RO / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は身体化タスク計画を扱い、既存の視覚言語モデルは、多ターンの対話、長期ホライズンの推論、そして現実世界に近い環境で必要となる拡張された文脈において困難があると主張する。
- それに対して、RoboAgentは能力駆動型の計画パイプラインを提案する。ここではスケジューラが複数のサブ機能をオーケストレーションし、それぞれが独自の文脈を維持しながら、中間的な推論や環境との相互作用を生成する。
- この手法は複雑な計画を、より単純な一連の視覚言語問題へ分解することで性能を向上させ、同時に推論をより透明で制御可能にする。
- RoboAgentは、スケジューラと全ての機能に単一のVLMを用い(外部ツールは使用しない)、学習は多段階プロセスで行う:挙動模倣(behavior cloning)、DAgger、そして専門家ポリシーによる強化学習。
- 身体化タスク計画の標準ベンチマークでの実験により、この方法の有効性が確認できたと報告されており、著者らは再現性のためのコード提供も示している。


