Hi-WM:大規模ロボットのポストトレーニングのためのHuman-in-the-World-Model

arXiv cs.RO / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習済みワールドモデルを用いて高コストな実世界でのヒューマン・イン・ザ・ループを大幅に置き換える、ロボット用ポストトレーニング手法Hi-WMを提案する。
  • 学習では方策をワールドモデル内でクローズドループ実行し、失敗しやすい軌道になった時点で、人間がモデル内に直接介入して短い修正アクションを与える。
  • Hi-WMは中間状態のキャッシュに加え、ロールバックとブランチをサポートし、1つの失敗状態から複数の修正継続を生成して、基礎方策が苦手な振る舞いに対する密な教師データを得られる。
  • 実験では、剛体・変形物の両方を扱う3つの実環境マニピュレーション課題に対して2つのポリシーバックボーンを用い、実世界の成功率が基礎方策比で平均37.9ポイント向上し、ワールドモデル評価と実世界の成績が強く相関する(r = 0.953)ことを示した。

概要: ポストトレーニングは、事前学習済みの汎用ロボット方策を信頼性の高いタスク固有のコントローラへ変換するために不可欠ですが、既存の人間を介したループ(human-in-the-loop)パイプラインは、物理実行に結びついたままです。すなわち、各修正にはロボットの時間、シーンのセットアップ、リセット、および現実世界でのオペレータの監督が必要です。一方で、行動条件付きの世界モデルは主に、想像(imagination)、合成データ生成、そして方策の評価のために研究されてきました。我々は、失敗を標的とした方策改善のための、再利用可能な補正(corrective)の基盤(サブストレート)として、学習済みの世界モデルを用いるポストトレーニングの枠組みである
\textbf{Human-in-the-World-Model (Hi-WM)} を提案します。まず、方策を世界モデルの内部で閉ループにより展開します。展開が不正確になったり失敗しやすくなったりした場合、人間がモデル内に直接介入して短い補正行動を与えます。Hi-WM は中間状態をキャッシュし、ロールバックや分岐をサポートします。これにより、単一の失敗状態を複数の補正の継続に再利用でき、基礎となる方策がうまく扱えない行動の周りに密な監督信号(dense supervision)を生成します。得られた補正軌道は、その後ポストトレーニングのための学習データセットに追加されます。我々は、剛体と変形可能物体の両方の相互作用を含む3つの実世界マニピュレーション課題、および2つの方策バックボーンで Hi-WM を評価します。Hi-WM は、基礎となる方策に対して平均で 37.9 ポイント、また世界モデルの閉ループ基準(baseline)に対して 19.0 ポイント 実世界での成功を改善します。さらに、世界モデルの評価は実世界の性能と強く相関します(r = 0.953)。これらの結果は、世界モデルが、生成器や評価器であるだけでなく、スケーラブルなロボットのポストトレーニングのための有効な補正基盤としても機能し得ることを示唆しています。