Video2Act: ロボットの空間—運動（スパティオモーション）モデリングを伴うデュアルシステム動画拡散ポリシー

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Video2Actは、ビデオ拡散モデル（VDM）がフレーム間に内在させる「空間表現の一貫性」や「物理的に整合した動き」を、ロボットの行動学習に明示的に統合する枠組みを提案しています。
具体的には、VDMから前景境界とフレーム間の動きの変化（モーション変動）を抽出し、背景ノイズやタスク非関連のバイアスを抑えた表現を拡散トランスフォーマ（DiT）側の追加条件として用いて、何を操作しどう動くかを推論させます。
推論の非効率を抑えるため、VDMを「遅いSystem 2」、DiTのアクションヘッドを「速いSystem 1」とする非同期のデュアルシステム設計を導入し、低頻度更新でも操作の安定性を維持する方針です。
評価では、Video2ActがVLA（Vision-Language-Action）系の先行手法に対してシミュレーションで平均成功率7.7%、実環境で21.7%上回り、汎化性能も高いことを示しています。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH