非同期平均化Qラーニングのための中心極限定理

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、更新が非同期に行われる場合のPolyak-Ruppert平均化Qラーニングに対して中心極限定理を証明し、より現実的な学習設定へと拡張しています。
  • ワッサースタイン距離における収束速度を明示的に示す非漸近的中心極限定理により、収束の度合いが反復回数、状態・行動空間のサイズ、割引因子、探索品質に依存することを定量化しています。
  • さらに、部分和の累積過程が弱収束によりブラウン運動へ収束することを示す関数型中心極限定理も導出しています。
  • 総じて、この研究は非同期強化学習における確率近似ダイナミクスに対する厳密な統計的保証と定量的な誤差スケーリングを与えています。

Abstract

本論文では、非同期更新の下での Polyak-Ruppert 平均化 Q-learning に対する中心極限定理を確立する。Wasserstein 距離における収束率が、反復回数、状態・行動空間のサイズ、割引因子、探索の質への依存を明示的に反映する非漸近的中心極限定理を証明する。さらに、部分和の過程が弱収束の意味でブラウン運動に収束することを示す関数型中心極限定理も導出する。