Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling
arXiv cs.RO / 3/25/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Video2Actは、ビデオ拡散モデル(VDM)がフレーム間に内在させる「空間表現の一貫性」や「物理的に整合した動き」を、ロボットの行動学習に明示的に統合する枠組みを提案しています。
- 具体的には、VDMから前景境界とフレーム間の動きの変化(モーション変動)を抽出し、背景ノイズやタスク非関連のバイアスを抑えた表現を拡散トランスフォーマ(DiT)側の追加条件として用いて、何を操作しどう動くかを推論させます。
- 推論の非効率を抑えるため、VDMを「遅いSystem 2」、DiTのアクションヘッドを「速いSystem 1」とする非同期のデュアルシステム設計を導入し、低頻度更新でも操作の安定性を維持する方針です。
- 評価では、Video2ActがVLA(Vision-Language-Action)系の先行手法に対してシミュレーションで平均成功率7.7%、実環境で21.7%上回り、汎化性能も高いことを示しています。
Related Articles
Santa Augmentcode Intent Ep.6
Dev.to

Your Agent Hired Another Agent. The Output Was Garbage. The Money's Gone.
Dev.to
ClawRouter vs TeamoRouter: one requires a crypto wallet, one doesn't
Dev.to
Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Palantir’s billionaire CEO says only two kinds of people will succeed in the AI era: trade workers — ‘or you’re neurodivergent’
Reddit r/artificial