ViVa：ロボット強化学習のためのビデオ生成型バリューモデル

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、部分観測下および長い時間幅のタスクにおいて状態価値をより適切に推定するための、ロボット強化学習向けビデオ生成型バリューモデル「ViVa」を提案する。
ViVaはロボットの現在の観測に加えて自己受容（proprioception）を入力として受け取り、事前学習済みのビデオ生成器を用いて時空間的な事前知識（spatiotemporal priors）を価値推定に注入しつつ、将来の自己受容とスカラーの価値を共同で予測する。
この手法は、従来のVLMベースの価値モデルにおける主要な制約を、静的なスナップショット埋め込みに依存するのではなく、時間的ダイナミクスを捉えることで解消することを狙っている。
RECAPフレームワークに統合することで、ViVaは実環境での箱組み立て性能を向上させ、タスクの進行状況に追随するより信頼性の高い価値信号を生成できると報告されている。
定性的な結果から、ViVaがタスク間で新規の物体にも汎化することが示されており、ビデオ生成型モデルがロボティクスの価値推定において有望な基盤となり得ることが示唆される。

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Reddit r/artificial

Dev.to