学習しながら展開する:汎用ロボット方策のためのフリート規模強化学習

arXiv cs.RO / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、オフラインの模倣データだけでは不十分な現実運用の課題を踏まえ、Learning While Deploying(LWD)というフリート規模のオフライン・トゥ・オンライン強化学習フレームワークを提案しています。
  • LWDは、ロボットの自律ロールアウトと人の介入をロボット群全体で収集し、Vision-Language-Action(VLA)方策を継続的に改善して再展開することで、展開と学習を閉ループ化します。
  • 現実の展開で得られる多様で疎な報酬データからの学習を安定化するために、Distributional Implicit Value Learning(DIVL)による頑健な価値推定と、流れ(flow)ベースのVLAアクション生成器から方策を抽出するためのQ-learning via Adjoint Matching(QAM)を組み合わせています。
  • 16台のデュアルアームロボットで8つの実環境マニピュレーション課題(例:セマンティックな食料補充や、5分程度の長いホライゾン課題)を検証したところ、フリートの経験が蓄積するほど1つの汎用方策が向上し、平均成功率95%を達成し、特に長ホライゾン課題で大きな改善が見られました。

要旨: 汎用ロボットの方策は、大規模な事前学習の恩恵をますます受けつつありますが、オフラインデータだけでは堅牢な実世界展開に不十分です。実際に配備されたロボットは、分布のずれ、ロングテールな失敗、タスクの多様性、人による修正の機会に直面しますが、固定されたデモンストレーション用データセットではそれらを十分に捉えきれません。私たちは、汎用ビジョン-言語-行動(VLA)方策の継続的な事後学習のための、フリート規模のオフラインからオンラインへの強化学習フレームワーク「Learning While Deploying(LWD)」を提案します。事前学習済みのVLA方策から出発し、LWDは、自律的ロールアウトと、ロボットフリート全体で収集された人間の介入を用いることで、配備、共有される物理的経験、方策の改善、再配備の間のループを閉じます。異質で疎な報酬を伴うフリートデータからの学習を安定化するために、LWDは、堅牢な価値推定のためのDistributional Implicit Value Learning(DIVL)と、フローベースのVLAアクション生成器における方策抽出のためのAdjoint MatchingによるQ-learning(QAM)を組み合わせます。実験では、実世界の8つのマニピュレーション課題に対して、デュアルアームロボット16台からなるフリートでLWDを検証します。そこには、セマンティックな食料品の補充や、3〜5分の長い時間軸を持つ課題が含まれます。フリートの経験が蓄積されるにつれて、単一の汎用方策は向上し、平均成功率95%に到達します。特に、長時間軸課題で最大の改善が見られます。