広告

深層強化学習の事前学習のための進化戦略

arXiv cs.LG / 2026/4/2

📰 ニュース

要点

  • 本論文では、微分不要の最適化手法である進化戦略(ES)を、難易度が段階的に上がるタスク(Flappy Bird、Breakout、MuJoCo 環境を含む)に対する深層強化学習(DRL)と比較します。
  • ES は、導入が容易であり計算コスト面でも相対的に低くなり得るにもかかわらず、学習速度において一貫して DRL を上回るとは限らないことが分かります。
  • ES を DRL の予備的な事前学習ステップとして用いると、改善はより複雑でない設定(特に Flappy Bird)でのみ見られ、Breakout や MuJoCo Walker のような難しいタスクでは効果がほとんど、あるいはまったく得られません。
  • 全体として、本研究は、ES がより要求の高い深層強化学習ワークロードに対する汎用的な事前学習加速器としては限界がある可能性を示しており、その有効性はタスクの複雑さに強く依存することを示唆しています。
  • また、本結果は、DRL が得意とする最も挑戦的な意思決定問題へスケールさせるうえでの ES の適切性に関する疑問を提起します。

Abstract

深層強化学習は複雑な意思決定問題に対して非常に有効であることが証明されていますが、成功する戦略を開発するためには、大きな計算資源と、慎重なパラメータ調整が必要です。進化戦略は、より単純で導出不要の(derivative-free)アプローチであり、計算コストが低く、導入も容易です。しかし、一般にESはDRLが達成する性能水準に匹敵しません。そのため、より要求の厳しいシナリオに対する適合性が疑問視されます。本研究では、Flappy Bird、Breakout、Mujoco の環境を含む難易度の異なるタスクにおけるESとDRLの性能を調べるとともに、ESをDRLアルゴリズムの初期学習に用いて性能を高められるかどうかを検討します。結果は、ESがDRLよりも一貫して速く学習できるわけではないことを示しています。前段の学習ステップとして用いた場合に得られる利点は、より単純な環境(Flappy Bird)に限られ、より洗練されたタスク(Breakout および MuJoCo Walker)に適用した際には、パラメータ設定の違いにわたって学習効率や安定性の改善はわずか、またはまったく見られませんでした。

広告