Abstract
ゼロショット強化学習(RL)アルゴリズムは、報酬なしデータセットから一群の方策を学習し、テスト時に任意の報酬関数に対する最適方策を直接復元することを目指します。自然なことに、事前学習データセットの品質が、タスク全体にわたって復元された方策の性能を決定します。しかし、関心のある下流タスクに関する事前知識なしに、関連性があり多様なデータセットをあらかじめ収集しておくことは依然として課題です。本研究では、実ロボットシステムにおける四足歩行の制御に対して、Forward-Backward(FB)アルゴリズムに基づき、 extit{online} なゼロショットRLを研究します。無向の探索ではデータの多様性が低くなり、その結果として下流性能が不十分になり、方策が直接ハードウェアに展開するには実用的でないことを観察します。そこで本論文では、FB-MEBEというオンラインのゼロショットRLアルゴリズムを提案します。FB-MEBEは、教師なしの行動探索戦略と正則化クリティックを組み合わせます。FB-MEBEは、達成された行動分布のエントロピーを最大化することで探索を促進します。さらに、正則化クリティックは、復元された方策を、より自然で物理的にもっともらしい行動へと形作ります。本研究では、FB-MEBEが、さまざまなシミュレーション下流タスクにおいて、他の探索戦略と比較して性能を達成し、さらに改善することを実証します。また、追加のファインチューニングなしにそのままハードウェアへシームレスに展開できる自然な方策を実現します。動画とコードは当社Webサイトで公開しています。