平均報酬オフライン強化学習における最適な単一ポリシーのサンプル複雑度とトランジェント・カバレッジ

arXiv stat.ML / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、平均報酬MDPにおけるオフライン強化学習を、分布シフトと非一様なカバレッジという観点から解析し、従来の理論研究では相対的に十分に検討されてこなかった課題に焦点を当てます。
著者らは、ターゲット方策に関してのみ成立する、バイアススパンと新しい「ポリシー・ヒッティング半径」に基づく形で、平均報酬オフラインRLに対する初の「完全な単一ポリシー」サンプル複雑度の保証を導出します。
また、従来研究で用いられていた制約の強い構造仮定を避け、より一般的な弱い連通性MDPに対しても保証を扱えることを示します。
さらに、量子イルクリップ（quantile clipping）を組み込んだ悲観的な割引価値反復にもとづくアルゴリズムを提案し、シャープな経験的スパンに基づくペナルティを得ながら、主要パラメータの事前知識なしに実装できる点も特徴です。
重要な点として、難しい例（hard examples）により、学習にはターゲット方策の定常分布よりも強いカバレッジ仮定が必要であり、単一ポリシーの複雑度指標が従来のケースと異なることを明らかにし、主結果にほぼ一致する下界も提示します。

抽象: 平均報酬 MDP（Markov決定過程）におけるオフライン強化学習を研究します。この問題は、分布シフトと非一様なカバレッジの観点から、より大きな困難を伴う一方で、理論的観点からは相対的に十分に検討されてきませんでした。先行研究では、単一ポリシーのデータカバレッジ仮定の下で性能保証が得られていますが、そのような保証は、一様混合時間のように、すべてのポリシーに対して一様な追加の複雑性指標を利用します。我々は、目標ポリシーのみに依存する鋭い保証、すなわちバイアススパンと新しいポリシー・ヒッティング半径を導出し、平均報酬オフライン RL に対する最初の「完全に単一ポリシーに基づく」サンプル計算量の上界を与えます。また、先行研究が置いてきた制約のある構造仮定と対照的に、一般の弱い可達性（weakly communicating）MDP を初めて扱います。これを達成するために、我々は、新しい分位数クリッピング技術によって強化された悲観的割引価値反復に基づくアルゴリズムを導入し、より鋭い経験スパンベースのペナルティ関数を用いることを可能にします。さらに、このアルゴリズムは実装のために事前のパラメータ知識を一切必要としません。注目すべきことに、我々は困難な例を通じて、我々の条件の下で学習するには、目標ポリシーの定常分布を超えたカバレッジ仮定が必要であることを示し、単一ポリシーの複雑性指標が、これまで検討されてきた場合とは区別されることを明らかにします。加えて、主要な結果にほぼ一致する下界も開発します。