潜在世界モデルによる階層的計画

arXiv cs.LG / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長いホライゾンをもつ身体(embodied)タスクに対するモデル予測制御(MPC)を改善するために、潜在世界モデルを用いた階層的計画を提案し、単一レベル手法における誤差の蓄積と探索空間の爆発に対処する。
  • 複数の時間スケールで潜在世界モデルを学習し、クロススケールの計画を行うことで、推論時の計画の複雑さを抑えつつ、長期的な推論を可能にする。
  • 本手法は、異なる潜在世界モデルのアーキテクチャやアプリケーション領域にまたがって動作し得る、モジュール化された計画の抽象化として提示される。
  • 実験では、非貪欲(non-greedy)なロボットタスクにおいて、ゼロショットで現実世界の性能向上が示される。具体的には、単一レベルの世界モデルでは0%だったのに対し、最終ゴールのみを指定するピック&プレースで70%の成功率を達成する。
  • シミュレーションのベンチマーク(プッシュ操作や迷路ナビゲーションなど)では、階層的アプローチがより高い成功率をもたらし、計画時間の計算量を最大4倍削減できる。

要旨: 学習済み世界モデルを用いたモデル予測制御(MPC)は、特に新しい環境に展開した際にゼロショットで汎化できる能力により、身体化された制御の有望なパラダイムとして注目を集めている。しかし、学習済み世界モデルは、予測誤差の蓄積と、探索空間が指数関数的に拡大することによって、長い予見(長期ホライズン)にわたる制御にしばしば苦戦する。本研究では、複数の時間スケールで潜在世界モデルを学習し、これらのスケールにまたがって階層的な計画を実行することで、これらの課題に取り組む。その結果、推論時の計画の複雑さを大幅に抑えつつ、長期の推論を可能にする。我々のアプローチは、多様な潜在世界モデルのアーキテクチャや領域にまたがって適用できる、モジュール化された計画の抽象化として機能する。本手法が階層化により、現実世界の非貪欲(non-greedy)なロボットタスクでゼロショット制御を可能にすることを示す。具体的には、単一レベルの世界モデルでは0%であるのに対し、最終目標の仕様のみを用いたピック&プレースで70%の成功率を達成する。さらに、押し操作(push manipulation)や迷路探索(maze navigation)を含む、物理ベースのシミュレーション環境全体において、階層的計画はより高い成功を実現しつつ、最大で計画時間の計算量を4分の1に抑えることができる。

潜在世界モデルによる階層的計画 | AI Navigate