Abstract
オフライン強化学習(RL)はオンライン探索をせずに効率的かつ安全に方策学習を可能にするが、分布シフトの下では性能がしばしば低下する。学習された方策は分布外の状態-行動ペアを訪れることがあり、そこでの価値評価や学習された動的モデルは信頼できない可能性がある。方策誘導型の外挿および遷移不確実性を統一的な枠組みで扱うために、我々はオフラインRLを頑健な方策最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱い、最悪ケースの動的モデルに対して方策を最適化する。我々はRobust Regularized Policy Iteration (RRPI)を提案する。これは扱いにくいmax-min二重最適化問題を扱いやすいKL正則化代理問題に置き換え、頑健な正則化ベルマン演算子に基づく効率的な方策反復手法を導出する。提案演算子がgamma-収縮であることを示し、代理問題を反復的に更新することで元の頑健目的関数の単調改善と収束が得られる理論的保証を提供する。D4RLベンチマークでの実験により、RRPIはPMDBのようなパーセンタイルベースの方法を含む最近のベースラインをほとんどの環境で上回りつつ競争力を維持し、高い平均性能を達成することを示す。さらに、RRPIは頑健な挙動を示す。学習されたQ値はエピステミック不確実性が高い領域で減少し、その結果、方策が遷移不確実性下で信頼性の低い分布外行動を回避していることを示唆する。