EVA:逆ダイナミクス報酬によって実行可能なロボット行動と整合するようにビデオ世界モデルを整列させる

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボティクス向けのビデオベース世界モデルにおける「実行可能性ギャップ(executability gap)」を指摘している。すなわち、視覚的にもっともらしいロールアウトであっても、逆ダイナミクスモデルでデコードすると剛体/運動学的制約に反するロボット行動が生成され得る。
  • 提案手法は、実ロボットの軌道で訓練した逆ダイナミクスモデルを報酬モデルとして用い、生成されたビデオを評価する強化学習のポストトレーニング枠組み「Executable Video Alignment(EVA)」である。
  • EVAは、速度・加速度・ジャークに基づくより滑らかで物理的に整合した運動を促進し、身体性(embodiment)制約を破る行動を罰することで、視覚予測と実行可能なロボット制御との整合性を高める。
  • 著者らは、視覚的なアーティファクトが深刻であっても報酬シグナルは有用なままであると報告している。そうしたアーティファクトはしばしば不安定、または範囲外(out-of-bounds)の行動系列を引き起こすためである。
  • RoboTwinベンチマークと実バイマニュアル(両手)ロボットでの実験により、EVAはロールアウトにおける身体性に特化したアーティファクトを低減し、タスク実行の成功率を向上させることが示される。

Abstract

動画生成モデルは、ロボティクスのための世界モデルとしてますます用いられており、現在の観測とタスク指示に条件付けられた将来の視覚ロールアウトをモデルが生成し、逆ダイナミクスモデル(IDM)が生成されたフレームを実行可能なロボット行動へ変換します。しかし、現在の動画世界モデルには、明示的な実行可能性(executability)の制約がありません。その結果、視覚的に首尾一貫したロールアウトであっても、剛体および運動学の整合性に違反している可能性があり、IDMによってデコードされる際に不安定または実行不可能な制御コマンドが生成されます。この、視覚生成と物理的に実行可能な制御との不一致を、実行可能性ギャップ(executability gap)と呼びます。このギャップは、リジェクション・サンプリングなどの手法を推論時に用いることで緩和できる場合がありますが、動画生成のコストが高いため、こうしたアプローチは非効率です。本論文では、実行可能性ギャップを学習信号として活用し、動画世界モデルを整列(アライン)させる強化学習によるポストトレーニング枠組みである Executable Video Alignment(EVA)を提案します。EVAは、実ロボットの軌跡で逆ダイナミクスモデルを学習し、それを誘導される行動系列によって生成動画を評価する報酬モデルとして転用します。速度、加速度、ジャークで測られる滑らかな運動を促し、さらに身体性(embodiment)の制約に違反する行動を罰則します。重要な点として、生成動画に深刻な視覚アーティファクトが含まれていても報酬は有益なままです。なぜなら、そのようなアーティファクトは典型的に、不安定または範囲外の行動へと変換されるためです。RoboTwinベンチマークおよび実際の二腕(bimanual)ロボットでの実験により、EVAは生成ロールアウトにおける身体性固有のアーティファクトを低減し、下流のタスク実行の成功率を向上させることが示されます。