World4RL: ロボット操作のための拡散型ワールドモデルによる方策改良と強化学習

arXiv cs.RO / 2026/3/23

📰 ニュースModels & Research

共有:

要点

World4RLは、拡散ベースのワールドモデルを高忠実度のシミュレータとして導入し、事前訓練済みのロボット操作ポリシーを想像上の環境だけで洗練させる。
本フレームワークは、多様なマルチタスクデータ上で拡散型ワールドモデルを事前学習し、ポリシー改良の間はワールドモデルを凍結したままにして、費用の高い実世界での相互作用を回避する。
ロボット操作向けに特化した2ホットアクションエンコーディング方式が設計され、モデリング忠実度を高める拡散バックボーンも併せて導入される。
従来の、ワールドモデルを用いた計画に焦点を当てる研究とは異なり、World4RLは仮想世界内で直接エンドツーエンドのポリシー最適化を実現し、シム-to-realギャップに対処する。
シミュレーションと実世界のロボティクスの双方での実験結果は、模倣学習や他のベースラインよりも成功率が高いことを示している。

要約: ロボット操作ポリシーは一般に模倣学習によって初期化されるが、専門データの希少性と適用範囲の狭さによって性能は制限される。強化学習はこの制限を緩和するようにポリシーを洗練できるが、実機での訓練はコストが高く安全性にも問題がある。一方、シミュレータでの訓練はシムツーリアルのギャップに悩まされる。生成モデルの最近の進歩は現実世界のシミュレーションにおいて顕著な能力を示しており、特に拡散モデルは生成能力に卓越している。これにより、拡散モデルに基づくワールドモデルを組み合わせて、ロボット操作における事前学習済みポリシーを強化できるかという問いが生じる。本研究では World4RL を提案する。これは、拡散ベースのワールドモデルを高忠実度のシミュレータとして用い、想像上の環境だけで事前学習済みポリシーを洗練させるロボット操作のフレームワークである。従来の研究が主に計画のためにワールドモデルを用いるのに対し、我々のフレームワークは直接的なエンドツーエンドのポリシー最適化を可能にする。World4RL は二つの原理を軸に設計されている：マルチタスクデータセット上で多様なダイナミクスを捉える拡散ワールドモデルを事前訓練し、オンラインの現実世界の相互作用を回避するために凍結されたワールドモデル内で完全にポリシーを洗練させる。さらに、ロボット操作に適した二ホットアクションエンコーディング方式を設計し、モデリングの忠実度を向上させるために拡散バックボーンを採用する。広範なシミュレーションと現実世界の実験は、World4RL が高忠実度の環境モデリングを提供し、一貫したポリシー改良を可能にすることを実証し、模倣学習および他のベースラインと比較して成功率を著しく向上させる。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

World4RL: ロボット操作のための拡散型ワールドモデルによる方策改良と強化学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer