オープンワールドでタスク実行するVLAベースエージェントの長期メモリ

arXiv cs.RO / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、VLAベースの身体化エージェントが複雑な環境でうまく機能しにくい主因として、長期的な推論能力の不足と、永続的な経験の蓄積がないことを挙げています。
  • 化学ラボ自動化向けに、ChemBotというデュアルレイヤーのクローズドループ枠組みを提案し、進捗に応じた「Skill-VLA」モデルと自律エージェントを組み合わせて階層的な分解と長期実行を行います。
  • ChemBotは、成功した軌跡を再利用可能な資産として蓄積するデュアルレイヤーのメモリアーキテクチャを導入し、計画と実行を切り離したままにせず戦略を統合することを狙います。
  • MCP(Model Context Protocol)サーバを用いてサブエージェントとツールのオーケストレーションを効率化し、さらに将来状態に基づく非同期推論により軌跡の不連続を緩和します。
  • 協働ロボットでの実験により、ChemBotは複雑で長期の化学実験タスクにおいて、既存のVLAベースラインよりも安全性・精度・タスク成功率で優れていることが示されています。

要旨: Vision-Language-Action(VLA)モデルは、身体化された意思決定において大きな可能性を示しているが、複雑な化学ラボ自動化への適用は、長期ホライゾン推論の限界と、持続的な経験の蓄積がないことにより制限されている。既存の枠組みでは、計画と実行を分離したプロセスとして扱うことが多く、成功した戦略を統合できない場合があり、その結果、多段プロトコルにおける非効率な試行錯誤が生じる。本論文では、階層的なタスク分解と実行のために、自律型AIエージェントと進捗を考慮するVLAモデル(Skill-VLA)を統合した、デュアルレイヤーのクローズドループ枠組みであるChemBotを提案する。ChemBotは、成功した軌跡を検索可能な資産として統合するためのデュアルレイヤーのメモリアーキテクチャを利用し、さらにModel Context Protocol(MCP)サーバにより、サブエージェントおよびツールのオーケストレーションを効率的に行う。VLAモデルの本質的な制約に対処するため、軌跡の不連続性を緩和する将来状態に基づく非同期推論メカニズムも実装する。協調ロボットに関する大規模な実験により、ChemBotは、複雑で長期ホライゾンの化学実験において、既存のVLAベースラインと比べて、より優れた作業上の安全性、精度、およびタスク成功率を達成することを示す。