RISE:合成的ワールドモデルによる自己改善型ロボット方策

arXiv cs.RO / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、接触が多くダイナミックな物体操作タスクにおいて、軽微な実行ずれが失敗へ連鎖しやすいVision-Language-Action(VLA)方策の頑健性を高めることを目的に、RISEという枠組みを提案しています。
  • RISEは、制御可能なダイナミクスでマルチビューの将来状態を予測するコンポジショナル(合成的)ワールドモデルと、想像上の結果をスコアして有益なadvantage(優位度)を計算する進捗/価値モデルを中核に据えています。
  • 状態の予測と価値評価を分離し、それぞれ異なるアーキテクチャと目的に最適化することで、両者をうまく調整できる設計になっています。
  • 閉ループの「自己改善」パイプラインとして、想像上のロールアウトを繰り返し生成し、advantageを推定して、方策更新を“想像の空間”内で行うため、危険でコストの高いオンポリシーの物理実験を減らせます。
  • 3つの実世界タスクでの評価では、従来手法より大きな改善が示され、ダイナミックなブロック仕分けで+35%以上、バックパック詰め込みで+45%、箱の閉じ作業で+35%以上の絶対性能向上が報告されています。

Abstract

モデルの能力とデータ取得に対する継続的なスケーリングにもかかわらず、視覚-言語-行動(VLA)モデルは、接触が多く動的な操作課題において脆さが残っており、些細な実行の逸脱が失敗へと増幅され得ます。強化学習(RL)は堅牢性への原理的な道筋を提供しますが、実世界におけるオンポリシーRLは、安全上のリスク、ハードウェアコスト、環境リセットによって制約されます。このギャップを埋めるために、私たちは想像(imagination)を通じたロボティック強化学習のためのスケーラブルな枠組みであるRISEを提案します。中核となるのは、(i)制御可能なダイナミクスモデルによってマルチビューの将来を予測し、(ii)進捗値モデルによって想像された結果を評価して、方策改善のための有益な利得(advantage)を生成する、構成的ワールドモデルです。この構成的設計により、状態と価値を、最適に適合しつつも異なるアーキテクチャと目的によって調整できます。これらの構成要素は、費用のかかる物理的な相互作用なしに、想像空間内で継続的に架空のロールアウトを生成し、利得を推定し、方策を更新する、クローズドループの自己改善パイプラインとして統合されます。3つの困難な実世界タスクにおいて、RISEは先行手法に比べて大幅に改善し、それぞれ動的なレンガの仕分けで絶対性能が+35%以上、バックパックの詰め込みで+45%、箱の閉じ作業で+35%以上の向上を示します。