逐次ワールドモデルによるマルチロボット協調の強化

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、共同ダイナミクスのモデリング複雑性を低減することで、モデルベース強化学習を物理的なマルチロボット協調へ拡張するための枠組み「Sequential World Model(SeqWM)」を提案する。
  • SeqWMは、独立した自己回帰型のエージェント別ワールドモデルを用い、各ロボットが将来の軌道を予測し、先行するエージェントの予測に基づいて行動を計画することで、意図の明示的な共有を可能にする。
  • Bi-DexHandsおよびMulti-Quadrupedでの実験により、SeqWMはモデルベースおよびモデルフリーの両方のベースラインに対して、総合的な性能とサンプル効率の点で優れていることが示される。
  • 本手法は、単なる制御の巧拙ではなく、予測的適応、時間的整合、役割分担といった協調能力を可能にし、協調そのものが改善されることを強調する。
  • 著者らは物理の四足ロボットにおける実世界での導入結果を報告しており、プロジェクトリポジトリからコードとデモを提供している。

概要:モデルベース強化学習(MBRL)は、サンプル効率と計画能力の高さにより、ロボティクス分野で目覚ましい成功を収めてきました。しかし、MBRLを物理的なマルチロボット協調へ拡張することは、結合ダイナミクスの複雑さにより依然として困難です。こうした課題に対処するために、我々は新しい枠組みであるシーケンシャル・ワールド・モデル(SeqWM)を提案します。SeqWMは、マルチロボットMBRLに逐次(sequential)のパラダイムを統合する、独創的なフレームワークです。SeqWMは、結合ダイナミクスを表現するために、独立した自己回帰的なエージェント単位のワールドモデルを用います。このとき各エージェントは、自身の将来軌道を生成し、先行するエージェントの予測に基づいて自分の行動を計画します。この設計によりモデリングの複雑さが低減され、明示的な意図の共有を通じて高度な協調行動が創発されることが可能になります。Bi-DexHandsおよびMulti-Quadrupedに関する実験では、SeqWMが、全体性能とサンプル効率の両方において、既存の最先端のモデルベースおよびモデルフリーのベースラインを上回ることが示されました。また、予測に基づく適応、時間的整合、役割分担といった高度な協調行動が観察されました。さらにSeqWMは、物理の四足歩行ロボット上で正常に展開されており、実世界のマルチロボットシステムにおける有効性が検証されています。デモとコードは以下で利用可能です:https://github.com/zhaozijie2022/seqwm