ANO:堅牢な方策最適化のための原理に基づくアプローチ

arXiv cs.AI / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PPOのハードクリッピングが外れ値に関する有用な勾配情報を捨ててしまう一方、クリッピングを外したSPOは無制限の勾配によって大きな不安定性や超パラメータ感度を招くと主張している。
  • 統一トラスト領域フレームワークを提示し、その枠組みの中から設計原則に基づいてAnchored Neighborhood Optimization(ANO)を導出している。
  • ANOは「Redescending Influence Principle(影響の逓減原理)」に基づき、SPOの単調ペナルティやPPOのハードしきい値の代わりに、高分散な確率最適化における安定性を高めるための動的な外れ値抑制を提案している。
  • 著者らは、ANOが堅牢な最適化に必要な最小限の構造的複雑性を持つことを理論的に示し、さらに提案原理が安定性に必要であることを証明している。
  • MuJoCoベンチマークで、ANOはPPOやSPOに対して最先端(SOTA)の性能を達成し、さらにPPOが完全に失敗するほど攻めた超パラメータ条件でも、政策崩壊を防ぐ高い安定性を示している。

Abstract

Proximal Policy Optimization(PPO)は深層強化学習を席巻していますが、本質的なジレンマに直面しています。その「ハード・クリッピング」機構は外れ値からの貴重な勾配情報を破棄してしまい、サンプル効率が低下します。逆に、クリッピングを取り除く(SPOのようにする)と、最適化が有界でない勾配にさらされ、顕著な不安定性とハイパーパラメータへの過敏性が生じます。これを解決するために、既存の目的関数を一般化する統一トラスト領域フレームワークを確立します。このフレームワークの中で、設計原則の集合に基づいて Anchored Neighborhood Optimization(ANO)を導出します。標準的な方策勾配が失敗するのは、外れ値に対する勾配の影響の適用が誤っていることに起因するのだと特定します。単調なペナルティ(SPO)やハード閾値(PPO)から、動的な外れ値抑制へとパラダイムを転換する Redescending Influence Principle(再減衰影響原理)を提案し、高分散の確率的最適化における安定性のためにそれが不可欠であることを証明します。理論的には、ANOが頑健な最適化に必要な最小限の構造的複雑性を備えていることを証明します。実験的には、ANOはMuJoCoベンチマークで最先端の性能を達成し、PPOとSPOを大幅に上回ります。特に、ANOは優れた安定性を示し、PPOが完全に失敗するような攻撃的なハイパーパラメータ(標準より学習率が3倍など)下でも方策の崩壊を防ぎます。