エンボディメント非依存の事前学習済み世界モデルによる潜在ポリシー・ステアリング

arXiv cs.RO / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数エンボディメントのデータから構築した事前学習済み世界モデル(WM)を活用することで、データが少ない状況における学習済みロボットのビジュオモータ・ポリシーを改善する手法「Latent Policy Steering(LPS)」を提案する。
  • エンボディメントのギャップや、アクション空間の不一致に対処するため、WMの事前学習時にエンボディメント非依存なアクション表現として光学フローを用い、ロボットと人間のデータを再利用可能にする。
  • LPSは、少数のターゲット・エンボディメントのデモンストレーションを用いて事前学習済みWMを微調整し、その後、基本ポリシーと堅牢な価値関数を学習して、改善されたアクション候補を評価・選択する。
  • 実験の結果、LPSはRobomimicの4つのタスクすべてにおいて平均10.6%の行動クローン(behavior-cloning)ポリシー改善を達成し、さらに実世界では、行動クローンのベースラインに比べて大幅な向上を示す(30〜50デモで相対改善70%、60〜100デモで44%)。