要旨: マルチエージェントの身体性を備えたシステムは、複雑な協調的操作に対して大きな可能性を秘めている一方で、空間的な協調、時間的推論、共有ワークスペースの認識といった重要な課題に直面している。認知的な計画が身体的な実行とは別に行われるという人間の協働に着想を得て、我々は「構成可能な環境(compositional environment)」の概念を提案する。これは、現実世界とシミュレーションの要素を相乗的に統合するものであり、複数のロボットエージェントが意図を知覚し、統一された意思決定の空間の中で動作できるようにする。 この概念を土台に、我々は CoEnv(CoEnv)という枠組みを提示する。CoEnv は、現実での展開における信頼性を確保しつつ、シミュレーションを活用して安全な戦略探索を可能にする。CoEnv は3つの段階で動作する。すなわち、物理的なワークスペースをデジタル化する real-to-sim(現実からシミュレーションへの)シーン再構成、VLM によって駆動される行動合成であり、これは高レベルのインターフェースによるリアルタイム計画と、コードベースの軌道生成による反復計画の双方を支援し、さらに安全な展開のために衝突検出を伴う検証済みの sim-to-real(シミュレーションから現実への)転移である。 困難なマルチアーム操作のベンチマークに対する大規模な実験により、CoEnv が高いタスク成功率と実行効率を達成するうえで有効であることが示され、マルチエージェント身体性AIに対する新たなパラダイムが確立された。
CoEnv:合成環境によって身体性を備えたマルチエージェント協調を駆動する
arXiv cs.RO / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CoEnvは、共有ワークスペースにおける身体性を備えたマルチエージェント協調を支援するために、現実世界のセンシングとシミュレーションを組み合わせた合成(コンポーショナル)環境を提案します。
- 本フレームワークは、空間的な協調、時間的推論、共有された意図/認識といった、身体性を備えたマルチエージェントシステムにおける重要課題に取り組みます。
- CoEnvは3段階のパイプラインを用います:現実からシムへのシーン再構成、VLMに駆動されたアクション合成(高レベルのインターフェース計画とコード/軌道生成の両方)、および衝突検出による安全なデプロイのためのシムから現実への検証です。
- マルチアーム操作ベンチマークでの実験により、タスク成功率の向上と実行効率の改善が示され、シム支援による戦略から現実への転移がより強固であることを示唆しています。
- 本研究は、認知的な計画と身体的な実行を分離しつつエージェントを統一された意思決定空間に保つことで、身体性を備えたマルチエージェントAIにおける新しいパラダイムとして合成環境を位置付けます。



