Abstract
方策決定のための実用的な手段としてQ学習が持続的に人気であるにもかかわらず、関連する理論文献の大部分は、いずれかが定数の学習スケジュール(\eta_{t}\equiv \eta)か、多項式的に減衰する学習スケジュール(\eta_{t} = \eta t^{-\alpha})に関するものに限られている。しかし、これらの選択肢が、いずれかが持続的なバイアスを生む、または収束が極めて遅くなる、という問題を抱えることはよく知られている。これに対して、近年提案されたゼロへの線形減衰(\texttt{LD2Z}: \eta_{t,n}=\eta(1-t/n))スケジュールは、かなりの実証的性能を示しているが、その理論的および統計的性質は、特にQ学習の設定においてほとんど調べられていない。我々は文献上のこのギャップに対し、まずゼロへの一般的なべき乗減衰のクラス(\texttt{PD2Z}-
u: \eta_{t,n}=\eta(1-t/n)^{
u})を考察することで埋める。逐次的に進める中で、\texttt{PD2Z}-
u スケジュールにおけるQ学習のための鋭い非漸近的誤差評価(error bound)を提示し、続いてそれを用いて、新しい\textit{裾(tail)} Polyak-Ruppert 平均化推定量に対する中心極限定理を導出する。最後に、Q学習反復の部分和過程に対する新規な時間一様ガウス近似(\textit{強不変性原理}としても知られる)も与え、これによりブートストラップに基づく推論を可能にする。これらの理論結果はすべて、広範な数値実験によって補完されている。本研究は、Q学習文献への新規な理論的・統計的貢献であることに加えて、\texttt{LD2Z}、および一般に \texttt{PD2Z}-
u が「両得(best-of-both-worlds)」の性質を確実に達成することを決定的に示す。すなわち、(定ステップサイズに特徴的な)初期化からの急速な減衰を継承しつつ、(多項式的に減衰するスケジュールに特徴的な)漸近的収束保証を保持するのである。この二重の利点が\texttt{LD2Z}の実証的成功を説明しており、さらに我々の結果を通じて推論のための実用的な指針を提供している。