要旨: 大規模な人間による遠隔操作データで学習したロボット基盤モデルにおける最近の進展により、ロボットがますます複雑な実世界のタスクを実行できるようになってきました。しかし、これらのシステムをスケールさせることは依然として困難です。タスク固有のデモンストレーションを収集するのが高価であり、かつ労力を要するためです。合成データ、特に生成された動画は有望な方向性を示しますが、既存のWorld Models(WMs)は、対になった行動(アクション)の軌跡を提供しないため、方策学習(policy learning)には直接適していません。World-Action(WA)モデルは、視覚出力とともに行動を予測することでこの課題を部分的に解決しますが、多くの場合、動画と行動のアラインメントが十分に強くありません。一方で、まず動画を生成し、その後に行動を推論する二段階パイプラインは非効率であり、誤差の蓄積も引き起こします。これらの制約に対処するため、我々はVAGを提案します。VAGは、視覚および言語条件付けのもとで、動画と行動を同時に生成する、統一的なフローマッチング(flow-matching)に基づくデュアルストリームの枠組みです。両方の分岐におけるノイズ除去(denoising)を同期させ、適応的な3Dプーリング機構によってコンパクトなグローバル動画コンテキストを行動分岐へ転送することで、VAGは生成中のクロスモーダルな整合性を向上させます。シミュレーション環境および実環境の両方において、VAGは競争力のある予測品質を備えた整合済みの動画-行動ペアを生成し、実行可能な軌跡の再生(trajectory replay)をサポートし、さらに下流の方策の汎化(generalization)を改善する有用な合成事前学習データも提供します。これにより、VAGは身体化データ合成のための実用的なワールド-アクションモデルとしての可能性を示しています。
VAG:身体化データ合成のためのダブルストリーム・ビデオ-アクション生成
arXiv cs.RO / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VAG(Dual-Stream Video-Action Generation)は、ロボットの世界モデル/ワールドアクションにおける最大の課題である「動画と行動の対応(paired action trajectories)の不足」を、動画と行動を同時に生成する統一フレームワークで解決しようとする提案です。
- flow matchingに基づく2つのブランチ(動画生成と行動生成)を同期し、さらに適応的3Dプーリングによって動画側のコンパクトな全体文脈を行動側へ転送することで、モダリティ間の整合性を高める工夫がされています。
- 既存のWAモデルで起きがちな「動画と行動のアライメント不足」や、動画生成→行動推論の二段階パイプラインに伴う非効率・誤差累積を回避することを狙っています。
- シミュレーションと実環境の双方で、整合したビデオ-アクション対の生成、実行可能な軌跡リプレイ、そして合成プリトレーニングデータによる下流ポリシーの汎化性能向上が示されたと報告されています。




