VLGOR:一般化可能なエージェントのための視覚言語知識に導かれるオフライン強化学習
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語知識とオフライン強化学習を組み合わせることで、言語指示からタスクをより確実に実行できるようにする枠組みVLGORを提案する。
- VLGORは、初期の視覚観察と高レベルの指示から将来の状態および行動を予測することで、時間的に首尾一貫し空間的にもっともらしい「イメージ上のロールアウト(imaginary rollouts)」を生成するように視覚言語モデルを微調整する。
- カウンターファクチュアル(反実仮想)プロンプトを用いて、より多様なロールアウトを生成し、オフラインRLで利用可能な相互作用データを拡張することで、未見のタスクへの一般化を改善する。
- ロボット操作のベンチマークに関する実験では、VLGORはベースライン手法より成功率が24%以上高く、特に新しい最適方策が必要な未見タスクで顕著な改善が見られる。
- 本アプローチは、LLM駆動エージェントの主要な制約である、物理環境ダイナミクスへの不十分なグラウンディング(実世界との結び付け)に対処することを目的としており、RL学習プロセスへ視覚に基づく予測的知識を投入する。
広告




