非同期Q学習に対するガウス近似

arXiv stat.ML / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 指数 ω が (1/2, 1] の範囲にある多項式ステップサイズを用いた非同期Q学習によって生成される Polyak-Ruppert 平均化反復の収束率を導出する。
  • 非同期Q学習の設定で生じるマルチンゲール差分の和に対して、高次元中心極限定理を証明する。
  • 状態・行動・次状態への遷移に対し一様に幾何学的にエルゴード的なマルコフ連鎖であるという仮定のもとで、著者らは、高次元の超長方形(ハイパー・レクタンギュラー)上での追加の対数因子を伴いながら、概ね n^{-1/6} 程度までの率を得る。
  • 本研究はさらに、アルゴリズムの最後の反復に対する高次モーメントの評価を与え、有限サンプルにおける追加の特性付けを行う。

omega},\, \omega \in (1/2, 1] を用いて非同期Q学習アルゴリズムにより生成されるPolyak-Ruppert平均化反復に対する、高次元中心極限定理における収束率を導出する。状態行動次状態の三つ組の列 (s_k, a_k, s_{k+1})_{k \geq 0} が一様に幾何学的にエルゴード的なマルコフ連鎖をなすと仮定することで、アルゴリズムが使用するサンプル数 n と、状態数 S および行動数 A を用いると、超直方体(ハイパー・レクタングル)のクラスに対して n^{-1/6} \log^{4} (nSA)$ のオーダーまでの収束率を確立する。この結果を得るために、マルチンゲール差分の和に対する高次元中心極限定理を証明するが、これは独立して興味を持たれる可能性がある。最後に、アルゴリズムの最後の反復に対する高次モーメントの上界を示す。