RLトークン:視覚・言語・アクションモデルでオンライン強化学習を立ち上げる
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、事前学習済みの視覚言語アクション(VLA)モデルを、実環境で数時間程度の練習だけで微調整できる「サンプル効率の高いオンライン強化学習」手法として、RL Token(RLT)を提案します。
- RLTはVLAを改造して「RLトークン」を出力させ、タスクに重要な事前知識を保持しつつオンラインRLのための効率的なインターフェースとして機能するようにします。
- さらに、このRLトークン上で小さなアクター・クリティック(actor-critic)ヘッドを学習し、VLAへのアンカー(固定的な支え)を通じてプリトレイン能力を維持しながら行動の精度と応答性を高めます。
- 実ロボット4タスク(ねじ取り付け、結束バンドの固定、充電器の挿入、イーサネット挿入)で評価した結果、最も難しい局面で最大3倍のスピード向上と、数分〜数時間の練習での大幅な成功率向上が示されます。
- 一部のタスクではRLTが人手の遠隔操作よりも速い場合があり、ロボットのスキル適応を素早く実用化できる可能性を示しています。



