非同期平均化Qラーニングのための中心極限定理

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、更新が非同期に行われる場合のPolyak-Ruppert平均化Qラーニングに対して中心極限定理を証明し、より現実的な学習設定へと拡張しています。
ワッサースタイン距離における収束速度を明示的に示す非漸近的中心極限定理により、収束の度合いが反復回数、状態・行動空間のサイズ、割引因子、探索品質に依存することを定量化しています。
さらに、部分和の累積過程が弱収束によりブラウン運動へ収束することを示す関数型中心極限定理も導出しています。
総じて、この研究は非同期強化学習における確率近似ダイナミクスに対する厳密な統計的保証と定量的な誤差スケーリングを与えています。

Abstract

本論文では、非同期更新の下での Polyak-Ruppert 平均化 Q-learning に対する中心極限定理を確立する。Wasserstein 距離における収束率が、反復回数、状態・行動空間のサイズ、割引因子、探索の質への依存を明示的に反映する非漸近的中心極限定理を証明する。さらに、部分和の過程が弱収束の意味でブラウン運動に収束することを示す関数型中心極限定理も導出する。

あなたの視点は陳腐化しない — AI時代のプロフェッショナルとマネジメント

note

あなたの仕事、すでにAIに奪われています

note

AIを活用した商業不動産分析 (CRE-AGENT-SKILLS)

note

知能増強人間：ブレイン・マシーン・インターフェース（BMI）がもたらすもの

note

【はじめてのnote】AI発信・活用

note

非同期平均化Qラーニングのための中心極限定理

要点

Abstract

関連記事

あなたの視点は陳腐化しない — AI時代のプロフェッショナルとマネジメント

あなたの仕事、すでにAIに奪われています

AIを活用した商業不動産分析 (CRE-AGENT-SKILLS)

知能増強人間：ブレイン・マシーン・インターフェース（BMI）がもたらすもの

【はじめてのnote】AI発信・活用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

あなたの視点は陳腐化しない — AI時代のプロフェッショナルとマネジメント

あなたの仕事、すでにAIに奪われています

AIを活用した商業不動産分析 (CRE-AGENT-SKILLS)

知能増強人間： ブレイン・マシーン・インターフェース（BMI）がもたらすもの

【はじめてのnote】AI発信・活用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

知能増強人間：ブレイン・マシーン・インターフェース（BMI）がもたらすもの