進化的強化学習による堅牢な四足歩行ロコモーション

arXiv cs.RO / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、シミュレーションにおける四足歩行の深層強化学習(DDPG/TD3)ポリシーが、学習時の条件と物理環境が異なると失敗するのはなぜかを調査する。
  • 平坦地で学習し、平坦地および未見の起伏のある地形の両方で検証する4つのアプローチ(標準的な深層強化学習:DDPG、TD3、ならびに2つの進化的強化学習変種:CEM-DDPG、CEM-TD3)を評価する。
  • TD3は平坦路における標準的な深層強化学習のベースラインの中で最も強いと報告される一方、CEM-TD3は学習および評価の報酬において全体で最も高い性能を達成する。
  • 起伏のある地形への転移では、標準的な深層強化学習手法は大きな性能低下に見舞われるのに対し、進化的変種はそれでも実質的により高い歩行能力を維持する。
  • これらの結果は、進化探索の要素が過学習を軽減し、変化のある、または観測されていない地形への実運用における堅牢性を向上させ得ることを示唆している。