AI Navigate

遷移不確実性下における頑健な正則化方策反復

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、遷移不確実性と方策誘導型外挿を扱うために設計された新しいオフライン強化学習アルゴリズムであるRobust Regularized Policy Iteration (RRPI)を紹介する。これは、不確実性集合内の最悪ケースの動力学に対して方策を最適化する。
  • RRPIは扱いにくいmax-minの二重最適化問題を扱いやすいKL正則化による代理問題に置き換え、頑健な正則化ベルマン演算子を用いた効率的な方策反復を行う。この演算子は$$gamma-収縮であることが証明されており、収束と単調改善を保証する。
  • D4RLベンチマークでの実験結果は、RRPIがPMDBのようなパーセンタイルベースの最近の最先端手法を含むほとんどの環境で上回りつつ堅牢性を維持していることを示す。
  • 学習された$Q$値はエピステミック不確実性が高い領域で適切に減少し、学習方策が信頼性の低い分布外の行動を避けていることを示唆し、オフライン強化学習における安全性・信頼性を向上させる。
  • 本研究は、遷移モデルの不確実性に対処する理論的に根拠があり実用的に効率的な方法を用いることで、分布シフト下のオフライン強化学習の信頼性と性能の向上に貢献する。

Abstract

オフライン強化学習(RL)はオンライン探索をせずに効率的かつ安全に方策学習を可能にするが、分布シフトの下では性能がしばしば低下する。学習された方策は分布外の状態-行動ペアを訪れることがあり、そこでの価値評価や学習された動的モデルは信頼できない可能性がある。方策誘導型の外挿および遷移不確実性を統一的な枠組みで扱うために、我々はオフラインRLを頑健な方策最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱い、最悪ケースの動的モデルに対して方策を最適化する。我々はRobust Regularized Policy Iteration (RRPI)を提案する。これは扱いにくいmax-min二重最適化問題を扱いやすいKL正則化代理問題に置き換え、頑健な正則化ベルマン演算子に基づく効率的な方策反復手法を導出する。提案演算子がgamma-収縮であることを示し、代理問題を反復的に更新することで元の頑健目的関数の単調改善と収束が得られる理論的保証を提供する。D4RLベンチマークでの実験により、RRPIはPMDBのようなパーセンタイルベースの方法を含む最近のベースラインをほとんどの環境で上回りつつ競争力を維持し、高い平均性能を達成することを示す。さらに、RRPIは頑健な挙動を示す。学習されたQ値はエピステミック不確実性が高い領域で減少し、その結果、方策が遷移不確実性下で信頼性の低い分布外行動を回避していることを示唆する。