要旨: 動画生成モデルは急速に進歩し、物理ダイナミクスに対する強い理解が見え始めています。本論文では、Veo-3のような高度な動画生成モデルが、汎化可能なロボティックなマニピュレーションをどこまで支えられるのかを調査します。まず、ゼロショット手法を検討します。この手法では、Veo-3が現在のロボット観測から将来の画像シーケンスを予測し、その間に逆ダイナミクスモデル(IDM)が対応するロボットの行動を復元します。IDMはランダムプレイデータのみで学習されており、人間の監督や専門家によるデモンストレーションは不要です。主要な直観は、もし動画モデルが画像空間で物理的にもっともらしい将来の動きを生成できるなら、IDMがそれらの視覚的な軌跡を実行可能なロボットの行動へと変換できる、という点にあります。本研究では、高次元の器用な手を用いて、「Veo-3+IDM」アプローチをシミュレーションと実世界の両方で評価します。最前線の動画モデルの強力な汎化能力により、Veo-3+IDMは一貫して、おおむね正しいタスクレベルの軌跡を生成できることを見出します。ただし、低レベルの制御精度は依然として、多くのタスクを確実に解くには不十分です。この観察に動機づけられ、階層型フレームワークであるVeo-Actを開発します。これは、Veo-3を高レベルのモーションプランナーとして用い、VLAポリシーを低レベルのエグゼキュータとして用いることで、最先端の視覚言語行動ポリシーの指示追従性能を大幅に改善します。全体として、本結果は、動画生成モデルがさらに改善され続けるならば、動画モデルが汎化可能なロボット学習のための価値ある構成要素になり得ることを示唆しています。
Veo-Act:フロンティアの動画モデルは汎用的なロボット操作をどこまで進められるのか?
arXiv cs.RO / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、最先端の動画生成モデル(具体的にはVeo-3)が、ロボットの観測から将来の画像系列を予測し、逆ダイナミクスモデル(IDM)を用いてロボットの行動を復元することで、汎用的なロボット操作を支えられるかを検証する。
- IDMは、人間の監督や専門家によるデモンストレーションを一切用いず、ランダムプレイデータのみによって学習される。目的は、見た目としてもっともらしい軌道を、実行可能な制御信号へと写像することにある。
- シミュレーションおよび、次元の高い器用なハンドでの実世界実験において、Veo-3+IDMのアプローチはタスク・レベルの軌道については概ね正しいものを生成するが、ほとんどのタスクを確実に完遂するには、低レベルの制御精度が十分ではないことが分かる。
- この制約に対処するため、著者らはVeo-Actを提案する。Veo-3を高レベルのモーション計画に用い、VLAポリシーを低レベルの実行に用いる階層的フレームワークであり、最先端の視覚言語アクション方策の命令追従性能を改善する。
- 結果は、動画生成モデルの改良が、特に計画やタスク・レベルのガイダンスといった面において、汎用的なロボット学習パイプラインの構成要素としてますます有用になり得ることを示している。
