Target-Bench:ビデオ・ワールドモデルはセマンティック・ターゲットによるマップレス経路計画を達成できるか?

arXiv cs.RO / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、セマンティックなターゲット目標を用いて、ビデオ・ワールドモデルがセマンティック推論、空間推定、計画を行えるかを評価するためのベンチマーク「Target-Bench」を提案する。
  • Target-Benchは、47のセマンティックカテゴリにまたがるロボット収集の450シナリオを含み、参照となる運動傾向としてSLAMベースの軌跡を用いる。さらに、生成されたビデオから運動を再構成するためにメトリックなスケール復元も行う。
  • 本ベンチマークは、ターゲットへの接近能力と方向整合性を測る5つの補完的な指標を提供し、従来の定性的評価よりも包括的に計画性能を評価できる。
  • 実験結果では大きな性能ギャップが示される。最良の既製(オフ・ザ・シェルフ)ビデオ・ワールドモデルでも総合スコアは0.341にとどまり、現実的なビデオ生成が頑健なセマンティック計画能力を必ずしも意味しないことが示唆される。
  • 著者らは、比較的小規模な実世界ロボットデータセットで微調整することで、タスクレベルで計画性能を大幅に向上できると報告しており、計画能力を備えたより良いモデルへの実践的な道筋が示されている。

抽象: 最近の動画ワールドモデルは非常に現実的な動画を生成できますが、意味的推論や計画を実行する能力はいまだ不明であり、その性能も定量化されていません。私たちは、動画ワールドモデルの意味的推論、空間推定、計画能力を包括的に評価できる最初のベンチマークであるTarget-Benchを提案します。Target-Benchは、SLAMベースの軌跡を運動の傾向に関する参照として用いることで、47の意味カテゴリにまたがる450のロボット収集シナリオを提供します。本ベンチマークは、生成された動画から運動を復元し、メートル尺度回復メカニズムを備えることで、目標へ接近する能力と方向的一貫性に焦点を当てた5つの補完的な指標により計画性能を評価できるようにします。評価結果では、既製(オフ・ザ・シェルフ)モデルの最良でも総合スコアは0.341にとどまり、現在の動画ワールドモデルにおける現実的な視覚生成と意味的推論の間に大きなギャップがあることが明らかになりました。さらに、比較的小規模な実世界ロボットデータセットで微調整(ファインチューニング)を行うことで、タスクレベルの計画性能を大幅に向上できることを示します。