要約: 実体を持つエージェントが長期的で多段階のタスクを計画・実行するためには、タスクの進捗を正確に推定することが極めて重要です。有望な進展にもかかわらず、既存の Vision-Language Models(VLMs)に基づく手法は主に動画理解能力を活用しており、複雑な推論能力を十分に活かせていません。さらに、長い動画の軌跡をVLMsで処理することは、現実世界での展開には計算的に高コストで、実用的ではありません。
これらの課題に対処するため、再帰的推論ビジョン-言語モデル(\text{R}^2VLM)を提案します。
本モデルは、局所的な動画断片を反復的に処理する再帰的推論フレームワークを特徴とし、進化する思考の連鎖(Chain of Thought、CoT)を通じてグローバルな文脈を維持します。このCoTは、タスクの分解、主要なステップ、およびそれらの完了状態を明示的に記録し、モデルが複雑な時間的依存関係を推論することを可能にします。この設計は、長い動画の処理に伴う高コストを回避しつつ、重要な推論能力を維持します。
我々は、ALFREDおよびEgo4Dから自動生成された大規模なデータセットを用いて、\text{R}^2VLMを訓練します。
進捗推定および下流アプリケーションに関する広範な実験は、進捗を強化した方策学習、強化学習の報酬モデリング、積極的な支援を含むもので、\text{R}^2VLMが高い性能と汎用性を発揮し、長期的なタスク進捗推定において新たな最先端を達成することを示しています。
モデルとベンチマークは、\\href{https://huggingface.co/collections/zhangyuelin/r2vlm}{huggingface}で公開されています。
長期的なエンボディドタスクの進捗を推定するための視覚-言語モデルによる再帰的推論
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長期スパンのタスク進捗を推定するための Recurrent Reasoning Vision-Language Model(R^2VLM)を提案する。R^2VLM は、長期的な進捗を推定するために、拡大する思考の連鎖を用いて局所的なビデオ断片を処理する。
- R^2VLM は、グローバルな文脈を維持する再帰的フレームワークを通じて、長時間の動画処理の計算コストを抑えつつ、重要な推論能力を保持する。
- 本モデルは ALFRED および Ego4D で訓練され、長期的な進捗推定において最先端の性能を示す。進捗を強化するポリシー学習、RL報酬モデリング、予測的な支援といった下流タスクにも有用である。
- 著者は、より広範な利用と評価のために HuggingFace 上で公開モデルとベンチマークを提供している。




