DARLING:非定常な保証を備えた検出拡張強化学習

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、報酬と遷移ダイナミクスの両方が複数回任意に変化し得る、非定常な有限ホライゾンのエピソード型MDPにおけるモデルフリー強化学習を扱います。
  • エージェントが変化点を知らなくても適用できる「検出拡張強化学習(DARLING)」を提案し、タブラー型および線形MDPの両方に対して使えるモジュール型ラッパーとしています。
  • 変更点の分離条件と到達可能性条件を仮定した下で、DARLINGが両設定で最良の動的リグレット上界を改善することを示し、実験でも有効性を検証しています。
  • さらに、タブラー型および線形MDPにおけるPS-RL(piecewise-stationary RL)の最初のミニマックス下界を提示し、DARLINGがほぼ最適であることを裏付けます。
  • 標準的なベンチマークで、DARLINGが多様な非定常シナリオにおいて既存の最先端手法を一貫して上回ることを示します。

概要: 本研究では、非定常性に関する事前知識なしに、非定常な有限ホライゾンのエピソード型マルコフ決定過程(MDP)におけるモデルフリー強化学習(RL)を扱います。特に、報酬と遷移ダイナミクスの両方が任意の回数だけ変化し得る、区分的定常(PS)設定に焦点を当てます。私たちは、非変化に関する知識を必要としない、PS-RLのためのモジュール型ラッパであるDetection Augmented Reinforcement Learning(DARLING)を提案します。DARLINGは、表形式および線形MDPの双方に適用可能です。ある種の変化点の分離条件および到達可能性条件のもとで、DARLINGは両設定において利用可能な最良の動的レグレット境界を改善し、強力な実証性能を示します。さらに、表形式および線形MDPにおけるPS-RLに対する最初のミニマックス下限を確立し、DARLINGが初のほぼ最適なアルゴリズムであることを示します。標準的なベンチマークでの実験により、DARLINGが多様な非定常シナリオにおいて一貫して最先端手法を上回ることを示します。