長期的なエンボディドタスクの進捗を推定するための視覚-言語モデルによる再帰的推論

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長期スパンのタスク進捗を推定するための Recurrent Reasoning Vision-Language Model（R^2VLM）を提案する。R^2VLM は、長期的な進捗を推定するために、拡大する思考の連鎖を用いて局所的なビデオ断片を処理する。
R^2VLM は、グローバルな文脈を維持する再帰的フレームワークを通じて、長時間の動画処理の計算コストを抑えつつ、重要な推論能力を保持する。
本モデルは ALFRED および Ego4D で訓練され、長期的な進捗推定において最先端の性能を示す。進捗を強化するポリシー学習、RL報酬モデリング、予測的な支援といった下流タスクにも有用である。
著者は、より広範な利用と評価のために HuggingFace 上で公開モデルとベンチマークを提供している。

要約: 実体を持つエージェントが長期的で多段階のタスクを計画・実行するためには、タスクの進捗を正確に推定することが極めて重要です。有望な進展にもかかわらず、既存の Vision-Language Models（VLMs）に基づく手法は主に動画理解能力を活用しており、複雑な推論能力を十分に活かせていません。さらに、長い動画の軌跡をVLMsで処理することは、現実世界での展開には計算的に高コストで、実用的ではありません。
これらの課題に対処するため、再帰的推論ビジョン-言語モデル（ $\text{R}^2$ VLM）を提案します。
本モデルは、局所的な動画断片を反復的に処理する再帰的推論フレームワークを特徴とし、進化する思考の連鎖（Chain of Thought、CoT）を通じてグローバルな文脈を維持します。このCoTは、タスクの分解、主要なステップ、およびそれらの完了状態を明示的に記録し、モデルが複雑な時間的依存関係を推論することを可能にします。この設計は、長い動画の処理に伴う高コストを回避しつつ、重要な推論能力を維持します。
我々は、ALFREDおよびEgo4Dから自動生成された大規模なデータセットを用いて、 $\text{R}^2$ VLMを訓練します。
進捗推定および下流アプリケーションに関する広範な実験は、進捗を強化した方策学習、強化学習の報酬モデリング、積極的な支援を含むもので、 $\text{R}^2$ VLMが高い性能と汎用性を発揮し、長期的なタスク進捗推定において新たな最先端を達成することを示しています。
モデルとベンチマークは、\\href{https://huggingface.co/collections/zhangyuelin/r2vlm}{huggingface}で公開されています。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

長期的なエンボディドタスクの進捗を推定するための視覚-言語モデルによる再帰的推論

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌