VLGOR：一般化可能なエージェントのための視覚言語知識に導かれるオフライン強化学習

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語知識とオフライン強化学習を組み合わせることで、言語指示からタスクをより確実に実行できるようにする枠組みVLGORを提案する。
VLGORは、初期の視覚観察と高レベルの指示から将来の状態および行動を予測することで、時間的に首尾一貫し空間的にもっともらしい「イメージ上のロールアウト（imaginary rollouts）」を生成するように視覚言語モデルを微調整する。
カウンターファクチュアル（反実仮想）プロンプトを用いて、より多様なロールアウトを生成し、オフラインRLで利用可能な相互作用データを拡張することで、未見のタスクへの一般化を改善する。
ロボット操作のベンチマークに関する実験では、VLGORはベースライン手法より成功率が24%以上高く、特に新しい最適方策が必要な未見タスクで顕著な改善が見られる。
本アプローチは、LLM駆動エージェントの主要な制約である、物理環境ダイナミクスへの不十分なグラウンディング（実世界との結び付け）に対処することを目的としており、RL学習プロセスへ視覚に基づく予測的知識を投入する。

Abstract

大規模言語モデル（LLM）を強化学習（RL）と組み合わせることで、エージェントはタスク実行に向けて言語指示をより効果的に解釈できるようになります。しかし、LLMは通常、物理環境を直接知覚する機能を持たないため、環境ダイナミクスの理解や、未見のタスクへの汎化能力が制限されます。この制約に対処するために、本研究では、視覚と言語の知識を統合して想像上のロールアウトを生成する枠組みであるVisual-Language Knowledge-Guided Offline Reinforcement Learning（VLGOR）を提案します。これにより、相互作用データを豊富化します。 VLGORの中核となる前提は、視覚と言語モデルを微調整し、初期の視覚観測と高レベルの指示に条件付けて将来の状態および行動を予測することで、生成されるロールアウトが時間的に整合的であり、かつ空間的にもっともらしい状態を保つようにする点です。さらに、オフラインRLの学習のために、反事実的プロンプトを用いてより多様なロールアウトを生成し、視覚的手がかりに基づく環境への実体付けを行いながら、言語指示に従うのを助ける知識をエージェントに獲得させます。ロボットマニピュレーションのベンチマークにおける実験では、VLGORが、独自の最適方策を必要とする未見タスクに対して性能を大幅に向上させ、ベースライン手法よりも成功率が24%以上高いことが示されました。