広告

SOLE-R1:オンロボット強化学習における唯一の報酬としてのビデオ言語推論

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、動画の生データと自然言語の目標からオンライン強化学習を行う際、唯一の報酬信号として機能するよう設計されたビデオ言語推論モデル「SOLE-R1」を提案する。
  • SOLE-R1は、タイムステップごとの時空間的な推論(チェーン・オブ・ソート)と、密なタスク進捗推定を生成し、部分観測や分布シフトのもとで方策が評価器の知覚上の誤りを悪用することを防ぐことを意図している。
  • 学習は、大規模なパイプラインに依存しており、連続的な進捗の監督に整合した、時間的に根拠づけられた推論トレースを生成する。さらに、検証可能な報酬によって駆動される強化学習と、教師あり微調整を組み合わせたハイブリッド手法を用いる。
  • 複数のシミュレーション環境および実ロボット設定での実験により、真の報酬、デモンストレーション、またはタスク固有のチューニングなしで、ランダム初期化から24の未見の操作タスクに対してゼロショットのオンラインRLが可能であることを示す。
  • 結果は、既存の強力な視覚-言語報酬モデル(GPT-5やGemini-3-Proを含む)に対して大幅な改善を報告するとともに、報酬ハッキングに対する頑健性がより高いことを示す。

Abstract

Vision-language models (VLMs) have shown impressive capabilities across diverse tasks, motivating efforts to leverage these models to supervise robot learning. However, when used as evaluators in reinforcement learning (RL), today's strongest models often fail under partial observability and distribution shift, enabling policies to exploit perceptual errors rather than solve the task. To address this limitation, we introduce SOLE-R1 (Self-Observing LEarner), a video-language reasoning model explicitly designed to serve as the sole reward signal for online RL. Given only raw video observations and a natural-language goal, SOLE-R1 performs per-timestep spatiotemporal chain-of-thought (CoT) reasoning and produces dense estimates of task progress that can be used directly as rewards. To train SOLE-R1, we develop a large-scale video trajectory and reasoning synthesis pipeline that generates temporally grounded CoT traces aligned with continuous progress supervision. This data is combined with foundational spatial and multi-frame temporal reasoning, and used to train the model with a hybrid framework that couples supervised fine-tuning with RL from verifiable rewards. Across four different simulation environments and a real-robot setting, SOLE-R1 enables zero-shot online RL from random initialization: robots learn previously unseen manipulation tasks without ground-truth rewards, success indicators, demonstrations, or task-specific tuning. SOLE-R1 succeeds on 24 unseen tasks and substantially outperforms strong vision-language rewarders, including GPT-5 and Gemini-3-Pro, while exhibiting markedly greater robustness to reward hacking.

広告