永続的ロボット・ワールドモデル:強化学習によるマルチステップ・ロールアウトの安定化
arXiv cs.RO / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、行動条件付きロボット・ワールドモデルが自己回帰的なマルチステップ・ロールアウトを行う際に、予測誤差が時間とともに蓄積して性能が劣化するという失敗モードに取り組む。
- その解決として、地上真実の履歴ではなくモデル自身の自己回帰ロールアウト上でモデルを訓練する、強化学習(RL)に基づく事後学習手法を提案する。これには、収束保証を備えた拡散モデルに適応したコントラストive RL目的関数が含まれる。
- 可変長の候補ロールアウト戦略を用いて、同一の状態から複数の未来予測を生成・比較し、低忠実度な予測よりも高忠実度な予測を強化する。
- マルチビューかつクリップ単位の視覚的忠実度報酬を導入し、カメラ視点間で低分散の学習シグナルを集約する。
- DROIDデータセットでの実験では、LPIPS/SSIMの改善、ペア比較での高い勝率、盲検の人間評価で80%の選好率などを含む、新たな最先端のロールアウト忠実度が報告されている。
広告




