ANO:堅牢な方策最適化のための原理に基づくアプローチ
arXiv cs.AI / 2026/5/5
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、PPOのハードクリッピングが外れ値に関する有用な勾配情報を捨ててしまう一方、クリッピングを外したSPOは無制限の勾配によって大きな不安定性や超パラメータ感度を招くと主張している。
- 統一トラスト領域フレームワークを提示し、その枠組みの中から設計原則に基づいてAnchored Neighborhood Optimization(ANO)を導出している。
- ANOは「Redescending Influence Principle(影響の逓減原理)」に基づき、SPOの単調ペナルティやPPOのハードしきい値の代わりに、高分散な確率最適化における安定性を高めるための動的な外れ値抑制を提案している。
- 著者らは、ANOが堅牢な最適化に必要な最小限の構造的複雑性を持つことを理論的に示し、さらに提案原理が安定性に必要であることを証明している。
- MuJoCoベンチマークで、ANOはPPOやSPOに対して最先端(SOTA)の性能を達成し、さらにPPOが完全に失敗するほど攻めた超パラメータ条件でも、政策崩壊を防ぐ高い安定性を示している。




