非同期平均化Qラーニングのための中心極限定理
arXiv stat.ML / 2026/4/21
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、更新が非同期に行われる場合のPolyak-Ruppert平均化Qラーニングに対して中心極限定理を証明し、より現実的な学習設定へと拡張しています。
- ワッサースタイン距離における収束速度を明示的に示す非漸近的中心極限定理により、収束の度合いが反復回数、状態・行動空間のサイズ、割引因子、探索品質に依存することを定量化しています。
- さらに、部分和の累積過程が弱収束によりブラウン運動へ収束することを示す関数型中心極限定理も導出しています。
- 総じて、この研究は非同期強化学習における確率近似ダイナミクスに対する厳密な統計的保証と定量的な誤差スケーリングを与えています。




