EVA:逆ダイナミクス報酬によって実行可能なロボット行動と整合するようにビデオ世界モデルを整列させる
arXiv cs.RO / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボティクス向けのビデオベース世界モデルにおける「実行可能性ギャップ(executability gap)」を指摘している。すなわち、視覚的にもっともらしいロールアウトであっても、逆ダイナミクスモデルでデコードすると剛体/運動学的制約に反するロボット行動が生成され得る。
- 提案手法は、実ロボットの軌道で訓練した逆ダイナミクスモデルを報酬モデルとして用い、生成されたビデオを評価する強化学習のポストトレーニング枠組み「Executable Video Alignment(EVA)」である。
- EVAは、速度・加速度・ジャークに基づくより滑らかで物理的に整合した運動を促進し、身体性(embodiment)制約を破る行動を罰することで、視覚予測と実行可能なロボット制御との整合性を高める。
- 著者らは、視覚的なアーティファクトが深刻であっても報酬シグナルは有用なままであると報告している。そうしたアーティファクトはしばしば不安定、または範囲外(out-of-bounds)の行動系列を引き起こすためである。
- RoboTwinベンチマークと実バイマニュアル(両手)ロボットでの実験により、EVAはロールアウトにおける身体性に特化したアーティファクトを低減し、タスク実行の成功率を向上させることが示される。