連続時間強化学習:楕円性がモデルフリー価値関数近似を可能にする

arXiv stat.ML / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、連続時間のマルコフ拡散過程を連続時間として制御しつつ、観測と行動は離散時刻で行うオフポリシー強化学習を扱います。
  • 拡散ダイナミクスに対して非現実的な構造仮定を課さず、データから価値関数とアドバンテージ関数を直接学習するモデルフリーの関数近似手法に焦点を当てています。
  • 拡散の楕円性を活かして、ベルマン作用素に関する新しいヒルベルト空間での正定値性・有界性の性質を証明し、その理論的基盤を与えます。
  • 著者らは Sobolev-prox fitted Q-learning アルゴリズムを提案し、推定誤差を近似誤差、局所的複雑度、最適化誤差(指数減衰)、数値離散化誤差に分解する oracle inequality を導出しています。
  • 結論として、楕円性はマルコフ拡散に対する関数近似付き強化学習を、理論的には教師あり学習と同程度に難しくする重要な構造的性質であると主張しています。

Abstract

本稿では、離散時間の観測と行動を伴う連続時間のマルコフ拡散過程を制御するための、オフポリシー強化学習を研究する。ここでは、ダイナミクスに対する非現実的な構造仮定を置かずに、データから価値関数およびアドバンテージ関数を直接学習する、関数近似を伴うモデルフリーアルゴリズムを考える。 拡散の楕円性(ellipticity)を活用することで、ベルマン作用素に対するヒルベルト空間における正定値性と有界性の新しいクラスを確立する。これらの性質に基づき、ソボレフ・プロックス適合(Sobolev-prox fitted)q-learningアルゴリズムを提案する。この手法は、最小二乗回帰問題を反復的に解くことにより、価値関数とアドバンテージ関数を学習する。推定誤差に対するオラクル不等式を導出し、その大きさは(i) 関数クラスの最良近似誤差、(ii) それらの局所化された複雑さ、(iii) 指数的に減衰する最適化誤差、(iv) 数値的離散化誤差によって支配される。これらの結果は、楕円性が重要な構造的性質であり、マルコフ拡散に対する関数近似を用いた強化学習が、教師あり学習と同程度に難しくなることを明らかにする。