要旨: 既存のロボティクス基盤ポリシーは、主として大規模な模倣学習によって訓練されている。これらのモデルは強力な能力を示す一方で、分布シフトや誤差の蓄積により、長い時間範囲(ロングホライズン)のタスクではしばしば苦戦する。強化学習(RL)でこれらのモデルを微調整することは可能だが、手作業による報酬設計なしには、多様なタスク全般でうまく機能させることはできない。そこで我々は、(1) タスクの進捗認識のための、大規模言語モデル(LLM)および視覚言語モデル(VLM)から得られる外的報酬、ならびに(2) ポリシーの自己確信に基づく内的報酬を組み合わせた密な報酬フレームワークであるVLLRを提案する。VLLRは、LLMを用いてタスクを検証可能なサブタスクに分解し、その後VLMで進捗を推定して、短いウォームアップ期間のための価値関数を初期化する。これにより、全学習(フルトレーニング)中の推論コストが過剰になることを回避する;そして自己確信により、PPOの微調整を通じてステップごとの内的な指針を提供する。アブレーション研究により補完的な利点が明らかになった。すなわち、VLMベースの価値関数初期化は主にタスク完了の効率を改善し、自己確信は主に成功率を向上させ、特に分布外タスクで効果が大きい。モバイルマニピュレーションとナビゲーションを扱うCHORESベンチマークにおいて、VLLRは事前学習済みポリシーに対して最大56%の絶対的な成功率向上を達成し、分布内タスクでは最先端のRL微調整手法に対して最大5%の向上を達成し、さらに分布外タスクでは最大10\%の向上を達成する。これらはいずれも手作業による報酬設計なしで実現している。追加の可視化は https://silongyong.github.io/vllr_project_page/ で確認できる。
長い時間幅のロボティクス課題に対する汎用的な緻密(デンス)報酬
arXiv cs.RO / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、模倣学習中心で学習したロボットの基盤ポリシーが、分布シフトや誤りの累積により長い時間幅の課題で失敗しがちであり、またRLの微調整による汎化には通常、手作業の報酬設計(リワードエンジニアリング)が必要だと主張する。
- VLLR(Generalizable Dense Reward for Long-Horizon Robotic Tasks)は、LLM/VLMによる進捗認識から得られる外在的な緻密報酬と、ポリシー自身の自己確実性に基づく内在的報酬を組み合わせ、学習を段階的に導く手法を提案する。
- VLLRは、LLMを用いて課題を検証可能なサブタスクへ分解し、VLMを用いて進捗を推定することで、短いウォームアップ段階による価値関数の初期化を可能にする。これにより、学習全期間を通じて緻密報酬計算を行う際に生じる高い推論コストを回避する。
- アブレーション結果は、VLMベースの価値初期化が主に課題完了の効率を改善し、自己確実性が成功率の向上に最も強く寄与することを示しており、とりわけ分布外(out-of-distribution)課題で効果が大きい。
- CHORESベンチマーク(モバイル・マニピュレーションおよび移動・ナビゲーション)では、VLLRは事前学習ポリシーに対して最大で絶対成功率+56%、インディストリビューション課題では既存のRL微調整に対して最大で+5%、また分布外課題では手作業の報酬設計なしで最大+10%の改善を報告している。



