RoboAgent:基本的な機能を連鎖して行う身体化タスク計画

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は身体化タスク計画を扱い、既存の視覚言語モデルは、多ターンの対話、長期ホライズンの推論、そして現実世界に近い環境で必要となる拡張された文脈において困難があると主張する。
  • それに対して、RoboAgentは能力駆動型の計画パイプラインを提案する。ここではスケジューラが複数のサブ機能をオーケストレーションし、それぞれが独自の文脈を維持しながら、中間的な推論や環境との相互作用を生成する。
  • この手法は複雑な計画を、より単純な一連の視覚言語問題へ分解することで性能を向上させ、同時に推論をより透明で制御可能にする。
  • RoboAgentは、スケジューラと全ての機能に単一のVLMを用い(外部ツールは使用しない)、学習は多段階プロセスで行う:挙動模倣(behavior cloning)、DAgger、そして専門家ポリシーによる強化学習。
  • 身体化タスク計画の標準ベンチマークでの実験により、この方法の有効性が確認できたと報告されており、著者らは再現性のためのコード提供も示している。

Abstract

本論文は、エージェントが環境から視覚観測を取得し、所与のタスクを達成するために原子的アクションを実行する、身体化されたタスク計画(embodied task planning)に焦点を当てる。近年のビジョン・言語モデル(Vision-Language Models: VLMs)は、多モーダル理解や推論において目覚ましい成果を収めているものの、複数ターンの相互作用を伴う身体化された計画、長期ホライズンの推論、そして拡張された文脈の解析に適用した場合、その性能は依然として限定的である。このギャップを埋めるために、我々はRoboAgentを提案する。RoboAgentは、モデルが異なるサブ能力(sub-capabilities)を能動的に呼び出す、能力駆動型の計画パイプラインである。各能力は独自の文脈(context)を保持し、スケジューラが与える問い(query)に従って、中間の推論結果を生成するか、あるいは環境と相互作用する。 この枠組みにより、複雑な計画を、VLMがより適切に扱える一連の基本的なビジョン・言語問題へ分解でき、推論プロセスがより明確で制御可能になる。スケジューラとすべての能力は、外部ツールに依存せず、単一のVLMで実装されている。このVLMを訓練するために、我々は次のマルチステージ・パラダイムを採用する:(1)専門家の計画による行動模倣(behavior cloning)、(2)モデルが収集した軌跡を用いるDAgger訓練(DAgger training)、(3)専門家方策(expert policy)に導かれる強化学習(reinforcement learning)。これらの各段階において、環境シミュレータの内部情報を活用して、各能力に対する高品質な教師データ(supervision)を構築し、さらにモデルの性能をより多様な状況で高めるために、拡張データ(augmented)および合成データ(synthetic data)を導入する。広く用いられている身体化タスク計画のベンチマークに対する大規模な実験により、提案手法の有効性が検証される。我々のコードは https://github.com/woyut/RoboAgent_CVPR26 で公開する予定である。