学習済み動画モデルから物理を学ぶ:ロボットマニピュレーションのためのマルチモーダルな連続・逐次の世界相互作用モデル

arXiv cs.RO / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習済みの自己回帰型動画生成モデルを、ロボットの操作方策学習における“疑似物理シミュレータ”として活用する PhysGen を提案している。
  • PhysGen は、動画の観測とロボットの行動を共通の物理トークンに統合し、離散的な動画生成と連続的なロボット制御のギャップを埋めながら、連続・マルチモーダルな世界相互作用を学習する。
  • 収束効率を高めるために、因果マスキング、逆運動学、Lookahead Multi-Token Prediction(L-MTP)、KVキャッシングといった手法を組み込んでいる。
  • Libero と ManiSkill の実験では、PhysGen が OpenVLA や WorldVLA を含む強力なベースラインを上回り、顕著な改善幅を示した。
  • 実世界での評価では、PhysGen が行動に特化した事前学習なしで、π0 のような大規模な行動事前学習モデルと同等の性能を達成し、透明物体の把持のような難課題でも優れた能力を示している。

概要: 大規模なロボティックデータの不足は、方策学習のために他のモダリティからの基盤モデルを転用する動機となってきました。本研究では、オートレグレッシブな動画生成を活用してロボットの操作タスクを解決する、スケーラブルな連続的かつ逐次的な世界相互作用フレームワークであるPhysGen(Pretrained Video Generation Modelsから物理を学習する)を導入します。事前学習済みの動画モデルを物理シミュレータの代理として扱うことで、PhysGenは外部環境とロボットの行動の間に生じる力学的な相互作用をモデル化します。動画と行動を共有する物理トークンへと統一するマルチモーダルな連続表現を導入し、離散的な動画生成と連続的なロボット制御の間のギャップを埋めます。このアプローチにより、物体の恒常性やダイナミクスといった暗黙的な物理知識を、動画の事前学習から下流の操作へとシームレスに転送できるようになります。効率的な収束を確実にするために、因果マスキング、逆運動学(inverse kinematics)、Lookahead Multi-Token Prediction(L-MTP)、およびキー・バリュー(KV)キャッシングを組み込みます。LiberoおよびManiSkillのベンチマークにおける実験結果は、PhysGenが頑健なベースラインを一貫して上回り、それぞれOpenVLAおよびWorldVLAを13.8%と8.8%の差で上回ることを示しています。特筆すべきは、実世界のシナリオにおいてPhysGenが、事前の行動特化型の事前学習を必要とせずに、\pi_0のような大規模な行動事前学習モデルと同等の性能を発揮し、透明な物体の把持といった物理的に複雑なタスクで優れた能力を示す点です。これらの結果は、事前学習済みの動画生成器から物理的な直感を抽出して、汎用的なロボット操作を促進できる可能性を裏付けています。