広告

マルチビュー軌道ビデオによる高整合性エンボディド・ワールドモデルへの取り組み

arXiv cs.RO / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、予測したロボットの行動と実世界の物理的相互作用との整合性を向上させるためのエンボディド・ワールドモデル「MTV-World」を提案する。
  • 制御のために低レベルの関節アクションを直接入力するのではなく、カメラパラメータおよびカーテシアン空間での変換から得られるマルチビューの軌道ビデオ入力を用いて、ヴィジュオモータ予測を駆動する。
  • 3Dのアクションを2Dのビューへ投影すると空間情報が失われるため、当該手法はその損失を補償するマルチビューの枠組みを追加し、より高い物理世界での整合性を目標とする。
  • 各ビューに対する初期フレームを条件として将来フレームを予測し、自動評価パイプラインにより運動の精度および物体の相互作用の正確さを評価する。自動評価パイプラインは、マルチモーダルの大規模モデルと動画に対する物体セグメンテーションを組み合わせて構成される。
  • 空間的整合性のために、著者らは物体位置のマッチングを定義し、評価指標としてヤッカード指数を用いる。複雑なデュアルアーム(両腕)シナリオにおいて強い性能が報告されている。

Abstract

身体化された世界モデルは、視覚観測と行動を通じて物理世界を予測し、相互作用することを目指します。しかし、既存のモデルは、低レベルの行動(例:関節位置)を、予測されたフレーム内の精密なロボット動作へ正確に変換することが難しく、その結果、実世界の物理的相互作用との間で不整合が生じます。これらの制約に対処するために、我々は、精密な視覚運動予測のためのMulti-view Trajectory-Video制御を導入した身体化世界モデルであるMTV-Worldを提案します。具体的には、低レベルの行動をそのまま制御に用いるのではなく、カメラの固有・外部パラメータとCartesian空間での変換によって得られる軌道ビデオを制御信号として用います。しかし、3Dの生の行動を2D画像へ投影することは必然的に空間情報の損失を引き起こすため、単一視点では正確な相互作用モデリングには不十分です。そこで、この空間情報の損失を補い、物理世界との高い整合性を保証するマルチビューの枠組みを導入します。MTV-Worldは、入力としてマルチビュー軌道ビデオを用い、さらに各ビューの初期フレームで条件付けすることで、将来フレームを予測します。さらに、ロボットの運動精度と物体の相互作用精度の両方を体系的に評価するために、多モーダル大規模モデルと、参照ビデオの物体セグメンテーションモデルを活用する自動評価パイプラインを開発します。空間整合性を測るために、それを物体位置のマッチング問題として定式化し、評価指標としてJaccard Indexを採用します。大規模な実験の結果、MTV-Worldは複雑なデュアルアームのシナリオにおいて、精密な制御実行と正確な物理相互作用モデリングを実現することが示されます。

広告