深層強化学習の事前学習のための進化戦略
arXiv cs.LG / 2026/4/2
📰 ニュース
要点
- 本論文では、微分不要の最適化手法である進化戦略(ES)を、難易度が段階的に上がるタスク(Flappy Bird、Breakout、MuJoCo 環境を含む)に対する深層強化学習(DRL)と比較します。
- ES は、導入が容易であり計算コスト面でも相対的に低くなり得るにもかかわらず、学習速度において一貫して DRL を上回るとは限らないことが分かります。
- ES を DRL の予備的な事前学習ステップとして用いると、改善はより複雑でない設定(特に Flappy Bird)でのみ見られ、Breakout や MuJoCo Walker のような難しいタスクでは効果がほとんど、あるいはまったく得られません。
- 全体として、本研究は、ES がより要求の高い深層強化学習ワークロードに対する汎用的な事前学習加速器としては限界がある可能性を示しており、その有効性はタスクの複雑さに強く依存することを示唆しています。
- また、本結果は、DRL が得意とする最も挑戦的な意思決定問題へスケールさせるうえでの ES の適切性に関する疑問を提起します。