RoboWM-Bench:ロボティック・マニピュレーションにおけるワールドモデル評価のためのベンチマーク

arXiv cs.RO / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、動画ワールドモデルの予測行動をロボットで実行可能なアクション列に変換して評価する、マニピュレーション中心のベンチマーク「RoboWM-Bench」を提案している。
  • 以前のベンチマークが知覚面の評価や診断に重点を置くのに対し、RoboWM-Benchは、生成された行動が身体化(embodied)されたロボット実行時に物理的に妥当で、タスクを完了できるかを明確に検証する。
  • このベンチマークは、人の手とロボットのマニピュレーション動画の両方から得られる生成行動を基に構築され、評価の一貫性と再現性を高める統一プロトコルを用いる。
  • 実験の結果、最先端の動画ワールドモデルでも、物理的に実行可能な行動を確実に生成することは依然として難題であり、空間推論の誤り、接触予測の不安定さ、非物理的な変形などが典型的な失敗要因として挙げられている。
  • マニピュレーションデータでのファインチューニングは改善につながるものの、物理的不整合は残っており、ロボット向けにはより物理に根ざした動画生成が必要だと示唆している。

要旨: 大規模ビデオ・ワールドモデルにおける近年の進展により、現実味の増した将来予測が可能になり、想像されたビデオをロボット学習に活用できる見込みが高まっています。しかし、視覚的な現実味は物理的な妥当性を意味しません。生成ビデオから推論された振る舞いは力学則に違反する可能性があり、体を持つエージェント(実機)により実行すると失敗することがあります。既存のベンチマークは物理的妥当性の概念を取り込み始めていますが、それらの多くは知覚または診断志向であり、予測された振る舞いが意図したタスクを完遂する実行可能な行動へと翻訳できるかどうかを、体系的に評価していません。このギャップに対処するために、我々はロボット体現(embodiment)に基づくビデオ・ワールドモデル評価のための、操作(manipulation)中心のベンチマークであるRoboWM-Benchを導入します。RoboWM-Benchは、人手による操作ビデオとロボット操作ビデオの双方から生成された振る舞いを、体を持つエージェントの行動シーケンスへ変換し、ロボットによる実行を通じて検証します。このベンチマークは多様な操作シナリオにまたがり、整合的で再現可能な評価のための統一プロトコルを確立します。RoboWM-Benchを用いて最先端のビデオ・ワールドモデルを評価した結果、物理的に実行可能な振る舞いを確実に生成することは、依然として未解決の課題であることが分かりました。一般的な失敗モードには、空間推論の誤り、不安定な接触予測、非物理的な変形があります。操作データで微調整すると改善は得られるものの、物理的不整合はなお残っており、ロボットのためのより物理的に根拠のあるビデオ生成のための機会が示唆されます。