要旨: 状態モデル(World models)とは、行動のもとで環境がどのように変化するかを予測する表現であり、ロボット学習の中核的な構成要素となっています。これらは方策学習、計画、シミュレーション、評価、データ生成を支えるだけでなく、基盤モデルや大規模な動画生成の台頭により急速に発展してきました。しかし、関連文献はアーキテクチャ、機能的な役割、体(エンボディド)化された応用領域にまたがって断片化したままです。このギャップに対処するために、本稿ではロボット学習の観点から状態モデルを包括的にレビューします。状態モデルがどのようにロボットの方策と結び付けられるのか、強化学習と評価のための学習済みシミュレータとしてどのように機能するのか、そしてロボティクス向けの動画状態モデルが、想像に基づく生成から、制御可能で構造化された基盤モデル規模の定式化へとどのように進展してきたのかを検討します。さらに、これらの考えをナビゲーションおよび自動運転へと接続し、代表的なデータセット、ベンチマーク、評価手順を要約します。全体として、本調査はロボット学習のための状態モデルに関する急速に成長する文献を体系的にレビューし、重要なパラダイムと応用を明確化し、体(エンボディド)化されたエージェントにおける予測モデリングの主要な課題と今後の方向性を強調します。新たに登場する研究、ベンチマーク、リソースへの継続的なアクセスを容易にするために、本調査に付随するGitHubリポジトリを維持し、定期的に更新します。
ロボット学習のためのワールドモデル:包括的サーベイ
arXiv cs.CV / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、環境の変化を行動の下で予測する「ワールドモデル」について、方策学習・計画・シミュレーション・評価・データ生成などを支える中核技術として位置づけ、ロボット学習の観点から整理します。
- ワールドモデルがロボットの方策とどのように結合されるか、また強化学習や評価のための学習済みシミュレータとしてどのように機能するかを分析します。
- ロボット向けのビデオ・ワールドモデルの進展を、想像に基づく生成から、制御可能で構造化された基盤(foundation)スケールの定式化へと発展してきた流れとしてまとめています。
- ナビゲーションや自動運転へとこれらの考え方を接続し、代表的なデータセット、ベンチマーク、評価プロトコルを整理します。
- 新しい研究動向に継続的にアクセスできるよう、サーベイに付随するGitHubリポジトリを維持し定期的に更新する計画です。



