広告

線形マルコフ決定過程に対するパラメトリック方策を用いた楽観的アクター・クリティック

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、アクター・クリティック手法に関する先行研究の理論解析が、非現実的な探索仮定に依存しているか、あるいは特に線形MDP設定において実用性の乏しいアルゴリズム改変を用いていると主張している。
  • 有限ホライゾンの線形マルコフ決定過程に対して、明示的にパラメトライズされた対数線形(パラメトリック)方策を用いる楽観的アクター・クリティックの枠組みを提案し、サンプリング効率の向上を図る。
  • アクターは、暗黙的な方策でよく用いられるナチュラル・ポリシー・グラディエントに伴う計算コストを回避し、取り扱い可能なロジット・マッチング回帰目的により学習される。
  • クリティックに対しては、ラグランジュン・モンテカルロ(Langevin Monte Carlo)で実装した近似トンプソン・サンプリングを用いて、楽観的な価値推定を生成する。
  • 著者らは、サンプル複雑性の上界としてオンポリシーで\(\widetilde{O}(\epsilon^{-4})\)、オフポリシーで\(\widetilde{O}(\epsilon^{-2})\)を証明しており、従来手法より実用的である上で最先端のレートであると主張している。

Abstract

アクター・クリティック法は実運用において成功を収めているものの、その理論解析にはいくつかの限界があります。具体的には、既存の理論研究は、強い仮定によって探索問題を回避するか、あるいは複雑なアルゴリズム上の修正を伴う非現実的な手法を解析するかのいずれかです。さらに、線形MDPに対して解析されているアクター・クリティック法は、多くの場合、自然政策勾配(NPG)を用い、明示的なパラメータ付けなしに「暗黙的」な政策を構成します。このような政策はサンプル生成(サンプリング)が計算コストを要するため、環境との相互作用が非効率になります。そこで本研究では、有期限(finite-horizon)の線形MDPに焦点を当て、パラメトリックな対数線形政策を用いる楽観的(optimistic)アクター・クリティックの枠組みを提案します。具体的には、アクターには、扱いやすい\textit{logit-matching}回帰目的関数を導入します。クリティックについては、ラングジュバン・モンテカルロによる近似トンプソンサンプリングを用いて楽観的な価値推定を得ます。その結果得られるアルゴリズムが、オンポリシーおよびオフポリシーの設定においてそれぞれ\widetilde{\mathcal{O}}(\epsilon^{-4})および\widetilde{\mathcal{O}}(\epsilon^{-2})のサンプル複雑度を達成することを証明します。私たちの結果は、最先端のサンプル複雑度を達成する点で先行する理論研究と一致していますが、提案アルゴリズムは実運用との整合性がより高いものです。

広告