World4RL: ロボット操作のための拡散型ワールドモデルによる方策改良と強化学習

arXiv cs.RO / 2026/3/23

📰 ニュースModels & Research

要点

  • World4RLは、拡散ベースのワールドモデルを高忠実度のシミュレータとして導入し、事前訓練済みのロボット操作ポリシーを想像上の環境だけで洗練させる。
  • 本フレームワークは、多様なマルチタスクデータ上で拡散型ワールドモデルを事前学習し、ポリシー改良の間はワールドモデルを凍結したままにして、費用の高い実世界での相互作用を回避する。
  • ロボット操作向けに特化した2ホットアクションエンコーディング方式が設計され、モデリング忠実度を高める拡散バックボーンも併せて導入される。
  • 従来の、ワールドモデルを用いた計画に焦点を当てる研究とは異なり、World4RLは仮想世界内で直接エンドツーエンドのポリシー最適化を実現し、シム-to-realギャップに対処する。
  • シミュレーションと実世界のロボティクスの双方での実験結果は、模倣学習や他のベースラインよりも成功率が高いことを示している。

要約: ロボット操作ポリシーは一般に模倣学習によって初期化されるが、専門データの希少性と適用範囲の狭さによって性能は制限される。強化学習はこの制限を緩和するようにポリシーを洗練できるが、実機での訓練はコストが高く安全性にも問題がある。一方、シミュレータでの訓練はシムツーリアルのギャップに悩まされる。生成モデルの最近の進歩は現実世界のシミュレーションにおいて顕著な能力を示しており、特に拡散モデルは生成能力に卓越している。これにより、拡散モデルに基づくワールドモデルを組み合わせて、ロボット操作における事前学習済みポリシーを強化できるかという問いが生じる。本研究では World4RL を提案する。これは、拡散ベースのワールドモデルを高忠実度のシミュレータとして用い、想像上の環境だけで事前学習済みポリシーを洗練させるロボット操作のフレームワークである。従来の研究が主に計画のためにワールドモデルを用いるのに対し、我々のフレームワークは直接的なエンドツーエンドのポリシー最適化を可能にする。World4RL は二つの原理を軸に設計されている:マルチタスクデータセット上で多様なダイナミクスを捉える拡散ワールドモデルを事前訓練し、オンラインの現実世界の相互作用を回避するために凍結されたワールドモデル内で完全にポリシーを洗練させる。さらに、ロボット操作に適した二ホットアクションエンコーディング方式を設計し、モデリングの忠実度を向上させるために拡散バックボーンを採用する。広範なシミュレーションと現実世界の実験は、World4RL が高忠実度の環境モデリングを提供し、一貫したポリシー改良を可能にすることを実証し、模倣学習および他のベースラインと比較して成功率を著しく向上させる。