Rainbow-DemoRL:デモンストレーション拡張強化学習における改善の組み合わせ
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、直接的な遷移再利用、オフライン事前学習、参照アクション/価値アプローチなど、オフラインのデモンストレーションを活用する複数の方法を比較しながら、デモンストレーション拡張型のオンライン強化学習を研究する。
- 既存のデモンストレーション拡張RL手法に関する分類法(タクソノミー)を提案し、それぞれがオンラインのサンプル効率に与える個別の寄与を測定するための幅広い実験を実施する。
- 観察結果として、オフラインデータを直接再利用し、振る舞いクローニングによる初期化を用いることは、より複雑なオフラインRLの事前学習パイプラインよりも、オンラインのサンプル効率が確実に良いことが示される。
- また、これらの戦略を効果的に組み合わせられるかどうかを評価し、サンプル効率の高いオンラインRLに対して累積的な利益をもたらすハイブリッドな組み合わせを特定する。



