Sim2Real ゼロショット強化学習のための最大エントロピー行動探索

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、実ロボット上での二足…ではなく四足歩行ロボット制御におけるオンライン・ゼロショット強化学習を研究しており、テスト時の報酬回復(reward recovery)を支えるために、報酬を含まないデータセットをオンラインで収集する。
  • その結果、無方向(undirected)な探索は多様性の低いデータを生成し、下流の性能を悪化させるだけでなく、実機への直接的なハードウェア展開を阻害し得ることを見出す。
  • これに対処するため、著者らは FB-MEBE を提案する。これは Forward-Backward(FB)アプローチと、最大エントロピーに基づく探索を組み合わせ、達成された行動分布のエントロピーを最大化する。
  • さらに本手法は、回復された方策をより自然で物理的にもっともらしい振る舞いへ導くための正則化(regularization)クリティックも追加し、実ハードウェアへの転移を改善する。
  • 実験により、FB-MEBE がシミュレーション上の複数の下流タスクで性能を向上させ、追加のファインチューニングなしで実機に展開可能な自然な方策を生成することが示される。

Abstract

ゼロショット強化学習(RL)アルゴリズムは、報酬なしデータセットから一群の方策を学習し、テスト時に任意の報酬関数に対する最適方策を直接復元することを目指します。自然なことに、事前学習データセットの品質が、タスク全体にわたって復元された方策の性能を決定します。しかし、関心のある下流タスクに関する事前知識なしに、関連性があり多様なデータセットをあらかじめ収集しておくことは依然として課題です。本研究では、実ロボットシステムにおける四足歩行の制御に対して、Forward-Backward(FB)アルゴリズムに基づき、 extit{online} なゼロショットRLを研究します。無向の探索ではデータの多様性が低くなり、その結果として下流性能が不十分になり、方策が直接ハードウェアに展開するには実用的でないことを観察します。そこで本論文では、FB-MEBEというオンラインのゼロショットRLアルゴリズムを提案します。FB-MEBEは、教師なしの行動探索戦略と正則化クリティックを組み合わせます。FB-MEBEは、達成された行動分布のエントロピーを最大化することで探索を促進します。さらに、正則化クリティックは、復元された方策を、より自然で物理的にもっともらしい行動へと形作ります。本研究では、FB-MEBEが、さまざまなシミュレーション下流タスクにおいて、他の探索戦略と比較して性能を達成し、さらに改善することを実証します。また、追加のファインチューニングなしにそのままハードウェアへシームレスに展開できる自然な方策を実現します。動画とコードは当社Webサイトで公開しています。
広告