VAMPO: 動画アクションモデルの視覚ダイナミクスを改善するためのポリシー最適化

arXiv cs.RO / 2026/3/23

📰 ニュースModels & Research

共有:

要点

VAMPOは、動画アクションモデルにおける多段階デノイジングを逐次決定プロセスとして扱い、潜在空間における専門家の視覚ダイナミクスに基づく報酬でデノイジングポリシーを最適化するポストトレーニングフレームワークを提案する。
拡散ベースの動画予測モデルにおける、操作に必要な正確な視覚ダイナミクスよりもグローバルに妥当な予測を優先することによる目的の不一致を解消し、下流のポリシーが依存する物体の姿勢・空間的関係・接触タイミングの誤差を削減する。
本手法は、最初のデノイジングステップのみで確率性を導入する Euler Hybrid サンプラーを提案し、残りのデノイジング軌道の一貫性を保ちながら、扱いやすい低分散のポリシー勾配推定を可能にする。
シミュレーションと実世界の操作タスクにおいて、VAMPOはタスクに関連する視覚ダイナミクスと下流のアクション生成を改善し、GRPOと検証可能な非対立的報酬と組み合わせた場合に、より良い一般化を示す。