Abstract
本稿では、離散時間の観測と行動を伴う連続時間のマルコフ拡散過程を制御するための、オフポリシー強化学習を研究する。ここでは、ダイナミクスに対する非現実的な構造仮定を置かずに、データから価値関数およびアドバンテージ関数を直接学習する、関数近似を伴うモデルフリーアルゴリズムを考える。 拡散の楕円性(ellipticity)を活用することで、ベルマン作用素に対するヒルベルト空間における正定値性と有界性の新しいクラスを確立する。これらの性質に基づき、ソボレフ・プロックス適合(Sobolev-prox fitted)q-learningアルゴリズムを提案する。この手法は、最小二乗回帰問題を反復的に解くことにより、価値関数とアドバンテージ関数を学習する。推定誤差に対するオラクル不等式を導出し、その大きさは(i) 関数クラスの最良近似誤差、(ii) それらの局所化された複雑さ、(iii) 指数的に減衰する最適化誤差、(iv) 数値的離散化誤差によって支配される。これらの結果は、楕円性が重要な構造的性質であり、マルコフ拡散に対する関数近似を用いた強化学習が、教師あり学習と同程度に難しくなることを明らかにする。