MoRI:長期的な操作タスクのためのRLとILのエキスパート混合

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、長期的なロボット操作タスクにおける性能を向上させるために、模倣学習(IL)と強化学習(RL)のエキスパートを組み合わせた混合フレームワーク「MoRI」を提案する。
  • MoRIは、エキスパートの行動の分散に基づいてILとRLのエキスパートを動的に切り替え、粗い運動と微細な操作の両方をカバーすることを狙う。
  • オフラインでの事前学習段階の後にオンラインでの微調整を行い、RLのサンプル効率の低さと、ILの補償誤差(compounding-error)/分布シフト問題に対処しつつ、収束を高速化する。
  • 探索をより安全に保ち、人手の関与を減らすために、MoRIはILベースの制約によってRL成分を正則化する。
  • 4つの複雑な実世界タスクでの実験では、微調整の2〜5時間以内に平均97.5%の成功率が報告される。加えて、人手による介入が減少(85.8%)し、基準となるRL手法に比べて収束が21%高速化された。

要旨: 強化学習(RL)と模倣学習(IL)は、操作における方策獲得の標準的な枠組みである。ILは効率的な方策導出を可能にする一方、誤りの累積や分布シフトに悩まされる。これに対してRLは自律的な探索を促すが、サンプル効率の低さや試行錯誤の高いコストによって頻繁に妨げられる。既存のハイブリッド手法は複雑なタスクでうまく機能しないことが多いため、本稿では強化学習と模倣学習の専門家の混合(Mixture of RL and IL Experts; MoRI)を提案する。このシステムは、専門家の行動の分散に基づいてILとRLの専門家を動的に切り替え、粗い動作と細かな操作の両方を扱う。MoRIは、オフラインでの事前学習段階に続いてオンラインでの微調整を行い、収束を加速する。探索の安全性を維持し、人の介入を最小化するために、本システムはRL成分に対してILベースの正則化を適用する。4つの複雑な実世界タスクにわたる評価により、MoRIは微調整の2〜5時間以内に平均成功率97.5%を達成することが示された。基準となるRLアルゴリズムと比較して、MoRIは人の介入を85.8%削減し、収束時間を21%短縮することから、ロボット操作における能力を実証している。