敵対者を抑制する:分数目的関数による安定なミニマックス深層決定論的方策勾配(MMDDPG)

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MMDDPG(分数目的を備えたミニマックス深層決定論的方策勾配)は、連続制御タスクにおける撹乱耐性ポリシーを学習することを目的として提案されている。
  • 訓練は、ユーザーポリシーと敵対的撹乱ポリシーとのミニマックスゲームとして定式化され、ユーザーは目的関数を最小化し、敵対者はそれを最大化する。
  • タスク性能と撹乱の大きさのバランスを取るために分数的な目的関数を導入し、過度に攻撃的な撹乱を防ぎ、学習を安定化させる。
  • MuJoCo環境での実験は、外力撹乱およびモデルパラメータの変動に対する頑健性が著しく向上することを示した。
Abstract: 強化学習(RL)は、幅広い制御と意思決定タスクで顕著な成功を収めている。しかし、予期せぬ外乱とモデル不確実性の影響を受ける環境で展開されると、RLエージェントは不安定な挙動を示すか、性能が低下することがしばしばある。したがって、そのような条件下で信頼性の高い性能を確保することは依然として重要な課題である。本論文では、連続制御タスクにおいて撹乱耐性ポリシーを学習するためのフレームワークとしてミニマックス深層決定論的ポリシー勾配(MMDDPG)を提案する。訓練プロセスは、ユーザーポリシーと敵対的撹乱ポリシーとの間のミニマックス最適化問題として定式化される。この問題では、ユーザーは目的関数を最小化する堅牢なポリシーを学習し、敵はそれを最大化する撹乱を生成する。 この相互作用を安定化させるため、タスク性能と撹乱の大きさをバランスさせる分数的な目的関数を導入する。この目的関数は、過度に攻撃的な撹乱を防ぎ、堅牢な学習を促進する。MuJoCo環境での実験評価は、提案手法MMDDPGが外部力の撹乱とモデルパラメータの変動の両方に対して顕著に改善された頑健性を示すことを示している。