発散ベースのS-直交(S-rectangular)分布ロバスト強化学習におけるほぼ最適なサンプル複雑度

arXiv stat.ML / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現実の分布変動をより適切に捉えるS-直交(S-rectangular)な敵対者の下で、発散ベースの分布ロバスト強化学習(DR-RL)を対象に経験的価値反復アルゴリズムを解析する。
  • \(\varepsilon\)(目標精度)に到達するために必要なサンプル数を、\(\widetilde{O}(|\mathcal{S}||\mathcal{A}|(1-\gamma)^{-4}\varepsilon^{-2})\)という(ほぼ最適な)サンプル複雑度境界として導出している。
  • 著者らは、発散ベースのS-直交モデルに対して、状態数 \(|\mathcal{S}|\)、行動数 \(|\mathcal{A}|\)、精度 \(\varepsilon\) の依存を同時に(少なくともほぼ)最適化したサンプル複雑度結果は初めてだと主張する。
  • ロバストな在庫管理問題および理論上の最悪ケース例で数値実験を行い、提案アルゴリズムの高速な学習性能を理論的予測とともに検証している。
  • DR-RLのモデリングにおける重要な点として、S-直交の敵対者はSA-直交より表現力が高くなり得る一方で、ロバストな確率的(ランダム化)方策の有効性を保ちつつ解析可能性も維持できることを示している。

概要: 分布的に頑健な強化学習(DR-RL)は、訓練環境と試験環境の間に存在する不一致に対処する、原理的なアプローチとして近年大きな注目を集めています。頑健性、保守性、および計算的な追跡可能性のバランスを取るために、文献ではSA-直方(SA-rectangular)およびS-直方(S-rectangular)な敵対者を伴うDR-RLモデルが導入されてきました。既存の統計的解析の多くは、アルゴリズムの単純さと決定論的方策の最適性により、SA-直方モデルに焦点が当てられています。しかし、S-直方モデルは、多くの実世界の応用における分布上の不一致をより正確に捉え、しばしば、より効果的な頑健なランダム化方策をもたらします。本論文では、発散(divergence)に基づくS-直方DR-RLに対する経験的価値反復アルゴリズムを研究し、\widetilde{O}(|\mathcal{S}||\mathcal{A}|(1-\gamma)^{-4}\varepsilon^{-2}) のほぼ最適なサンプル複雑性(sample complexity)境界を確立します。ここで、\varepsilon は目標精度、|\mathcal{S}||\mathcal{A}| はそれぞれ状態空間と行動空間の要素数(基数)、\gamma は割引率(discount factor)です。私たちの知る限り、これは、|\mathcal{S}||\mathcal{A}|、および \varepsilon への依存性を同時に最適な形で達成する、発散に基づくS-直方モデルに関する最初のサンプル複雑性結果です。さらに、頑健な在庫管理問題と理論上の最悪ケース例に対する数値実験を通じて、この理論的な依存性を検証し、提案アルゴリズムの高速な学習性能を示します。