マルチビュー軌道ビデオによる高整合性エンボディド・ワールドモデルへの取り組み
arXiv cs.RO / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、予測したロボットの行動と実世界の物理的相互作用との整合性を向上させるためのエンボディド・ワールドモデル「MTV-World」を提案する。
- 制御のために低レベルの関節アクションを直接入力するのではなく、カメラパラメータおよびカーテシアン空間での変換から得られるマルチビューの軌道ビデオ入力を用いて、ヴィジュオモータ予測を駆動する。
- 3Dのアクションを2Dのビューへ投影すると空間情報が失われるため、当該手法はその損失を補償するマルチビューの枠組みを追加し、より高い物理世界での整合性を目標とする。
- 各ビューに対する初期フレームを条件として将来フレームを予測し、自動評価パイプラインにより運動の精度および物体の相互作用の正確さを評価する。自動評価パイプラインは、マルチモーダルの大規模モデルと動画に対する物体セグメンテーションを組み合わせて構成される。
- 空間的整合性のために、著者らは物体位置のマッチングを定義し、評価指標としてヤッカード指数を用いる。複雑なデュアルアーム(両腕)シナリオにおいて強い性能が報告されている。



