Abstract
本論文では、Value-at-Risk 制約付き方策最適化アルゴリズム(VaR-CPO)を導入する。これは、Value-at-Risk(VaR)に制約を課した強化学習(RL)問題を最適化するための、サンプル効率が高く保守的な手法である。実験的に、VaR-CPO が安全な探索を実現でき、実行可能な環境における学習中に制約違反をゼロにすることを示す。これは、ベースライン手法が維持できない重要な性質である。VaR 制約に内在する非微分可能性を克服するために、Cantelli の不等式を用いて、コストリターンの最初の2つのモーメントに基づく扱いやすい近似を得る。さらに、制約付き方策最適化(CPO)手法の信頼領域(トラストリージョン)枠組みを拡張することで、学習過程における方策改善と制約違反の双方に対する最悪の場合の上界を与える。