永続的ロボット・ワールドモデル：強化学習によるマルチステップ・ロールアウトの安定化

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、行動条件付きロボット・ワールドモデルが自己回帰的なマルチステップ・ロールアウトを行う際に、予測誤差が時間とともに蓄積して性能が劣化するという失敗モードに取り組む。
その解決として、地上真実の履歴ではなくモデル自身の自己回帰ロールアウト上でモデルを訓練する、強化学習（RL）に基づく事後学習手法を提案する。これには、収束保証を備えた拡散モデルに適応したコントラストive RL目的関数が含まれる。
可変長の候補ロールアウト戦略を用いて、同一の状態から複数の未来予測を生成・比較し、低忠実度な予測よりも高忠実度な予測を強化する。
マルチビューかつクリップ単位の視覚的忠実度報酬を導入し、カメラ視点間で低分散の学習シグナルを集約する。
DROIDデータセットでの実験では、LPIPS/SSIMの改善、ペア比較での高い勝率、盲検の人間評価で80%の選好率などを含む、新たな最先端のロールアウト忠実度が報告されている。

Abstract

行動条件付きロボット・ワールドモデルは、ロボットの行動列が与えられることで操作されたシーンの将来の動画フレームを生成し、従来の物理エンジンではモデル化が難しいタスクをシミュレートするための有望な代替手段を提供します。しかし、これらのモデルは短期予測向けに最適化されており、自己回帰的に運用すると破綻します。すなわち、各予測クリップが次の予測の文脈としてフィードバックされるため、誤りが累積し、画質が急速に劣化します。私たちは以下の貢献によってこの問題に対処します。第一に、強化学習（RL）の事後学習スキームを導入します。これにより、ワールドモデルを、グラウンドトゥルースの履歴ではなく、自身の自己回帰的ロールアウトに基づいて学習します。ここでは、拡散モデル向けの最近の対照的RL目的関数を本設定に適応し、その収束保証が正確に引き継がれることを示します。第二に、同一のロールアウト状態から、可変長の複数の将来候補を生成し、それらを比較する学習プロトコルを設計します。これにより、低忠実度よりも高忠実度の予測が強化されます。第三に、カメラ視点ごとに補完的な知覚指標を組み合わせる効率的なマルチビューの視覚忠実度報酬を開発し、密な低分散の学習信号のためにクリップレベルで集約します。第四に、私たちのアプローチがDROIDデータセットにおけるロールアウト忠実度の新たな最先端を確立し、すべての指標で最も強いベースラインを上回ることを示します（例：外部カメラでLPIPSが14%低下、手首カメラでSSIMが9.1%向上）。また、ペア比較で98%勝利し、ブラインドの人間評価では80%の嗜好率を達成します。