物理的にネイティブなワールドモデル:ハミルトン的観点による生成的ワールドモデリング

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ワールドモデルの主なボトルネックは「現実的な未来を生成できるか」から、「行動に役立つ物理的に意味のある、制御可能で長期の安定性を備えた予測を作れるか」へ移るべきだと主張しています。
  • 「ハミルトニアン・ワールドモデル」を提案し、観測を構造化された潜在位相空間に符号化したうえで、制御・散逸・残差項を含むハミルトン的なダイナミクスで潜在状態を進めます。
  • 潜在の軌道予測を将来の観測へデコードし、そのロールアウトを計画に用いることを想定しています。
  • ハミルトニアン構造により解釈可能性、データ効率、長期安定性が向上し得る一方で、摩擦、接触、非保存的力、変形物体といった実環境での課題も指摘しています。

Abstract

世界モデルは、近年、身体化されたインテリジェンス、ロボティクス、自動運転、モデルベース強化学習のための中心的なパラダイムとして再び注目を集めている。しかし、現在の世界モデル研究はしばしば、部分的に分離した3つの経路に支配されている。すなわち、視覚的な未来の合成を重視する2Dのビデオ生成モデル、空間的な再構成を重視する3Dのシーン中心モデル、そして抽象的な予測表現を重視するJEPAのような潜在モデルである。それぞれの経路は重要な進展を遂げてきたものの、身体化された意思決定のために、物理的に信頼でき、行動を制御でき、かつ長い地平(ロングホライゾン)で安定した予測を提供することには依然として苦戦している。本論文では、世界モデルのボトルネックは、もはや現実的な未来を生成できるかどうかだけではなく、その未来が物理的に意味を持ち、行動のために有用であるかどうかであると論じる。そこで我々は、世界モデルを物理的に裏打ちされた観点から捉える \emph{Hamiltonian World Models(ハミルトニアン世界モデル)} を提案する。中核となる考え方は、観測を構造化された潜在位相空間に符号化し、制御、散逸(dissipation)、および残差項を伴うハミルトニアンに着想を得たダイナミクスによって潜在状態を進化させ、予測された軌跡を将来の観測へとデコードし、その結果得られるロールアウトを計画(プランニング)に用いることである。ハミルトニアン構造が解釈可能性、データ効率、長期(長地平)安定性をどのように改善しうるかを議論する一方で、摩擦、接触、非保存力、変形可能物体を含む現実世界のロボットシーンにおける実践上の課題にも注目し、その点を指摘する。