学習しながら展開する：汎用ロボット方策のためのフリート規模強化学習

arXiv cs.RO / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、オフラインの模倣データだけでは不十分な現実運用の課題を踏まえ、Learning While Deploying（LWD）というフリート規模のオフライン・トゥ・オンライン強化学習フレームワークを提案しています。
LWDは、ロボットの自律ロールアウトと人の介入をロボット群全体で収集し、Vision-Language-Action（VLA）方策を継続的に改善して再展開することで、展開と学習を閉ループ化します。
現実の展開で得られる多様で疎な報酬データからの学習を安定化するために、Distributional Implicit Value Learning（DIVL）による頑健な価値推定と、流れ（flow）ベースのVLAアクション生成器から方策を抽出するためのQ-learning via Adjoint Matching（QAM）を組み合わせています。
16台のデュアルアームロボットで8つの実環境マニピュレーション課題（例：セマンティックな食料補充や、5分程度の長いホライゾン課題）を検証したところ、フリートの経験が蓄積するほど1つの汎用方策が向上し、平均成功率95%を達成し、特に長ホライゾン課題で大きな改善が見られました。

要旨: 汎用ロボットの方策は、大規模な事前学習の恩恵をますます受けつつありますが、オフラインデータだけでは堅牢な実世界展開に不十分です。実際に配備されたロボットは、分布のずれ、ロングテールな失敗、タスクの多様性、人による修正の機会に直面しますが、固定されたデモンストレーション用データセットではそれらを十分に捉えきれません。私たちは、汎用ビジョン-言語-行動（VLA）方策の継続的な事後学習のための、フリート規模のオフラインからオンラインへの強化学習フレームワーク「Learning While Deploying（LWD）」を提案します。事前学習済みのVLA方策から出発し、LWDは、自律的ロールアウトと、ロボットフリート全体で収集された人間の介入を用いることで、配備、共有される物理的経験、方策の改善、再配備の間のループを閉じます。異質で疎な報酬を伴うフリートデータからの学習を安定化するために、LWDは、堅牢な価値推定のためのDistributional Implicit Value Learning（DIVL）と、フローベースのVLAアクション生成器における方策抽出のためのAdjoint MatchingによるQ-learning（QAM）を組み合わせます。実験では、実世界の8つのマニピュレーション課題に対して、デュアルアームロボット16台からなるフリートでLWDを検証します。そこには、セマンティックな食料品の補充や、3〜5分の長い時間軸を持つ課題が含まれます。フリートの経験が蓄積されるにつれて、単一の汎用方策は向上し、平均成功率95%に到達します。特に、長時間軸課題で最大の改善が見られます。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

Dev.to

学習しながら展開する：汎用ロボット方策のためのフリート規模強化学習

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」