フォワード動力学とインバース動力学を分離して事前学習する、分離型ロボット学習

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、2Dの視覚フォワード動力学(将来予測)と3Dのアクション/インバース動力学(行動推定)を切り分ける、ロボット学習のためのDeFIフレームワークを提案する。
  • GFDM(未来の状態予測)とGIDM(ラベルなしの動画遷移から自己教師ありで潜在行動を学習)という2つの専用事前学習コンポーネントを導入する。
  • GFDMとGIDMを統合した単一アーキテクチャを構成し、下流タスクに向けてエンドツーエンドで微調整する。
  • CALVIN ABC-DおよびSimplerEnvでの実験では、最先端性能が示され、CALVINの平均タスク長4.51、SimplerEnv-Fractalで51.2%の成功率、実世界展開で81.3%の成功率を達成する。
  • 動画生成と行動予測を分離することで、従来の“絡み合った”学習の制約を乗り越え、アクションなしの大規模Web動画データをより活用することを狙う。