非同期Q学習に対するガウス近似

arXiv stat.ML / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

指数 ω が (1/2, 1] の範囲にある多項式ステップサイズを用いた非同期Q学習によって生成される Polyak-Ruppert 平均化反復の収束率を導出する。
非同期Q学習の設定で生じるマルチンゲール差分の和に対して、高次元中心極限定理を証明する。
状態・行動・次状態への遷移に対し一様に幾何学的にエルゴード的なマルコフ連鎖であるという仮定のもとで、著者らは、高次元の超長方形（ハイパー・レクタンギュラー）上での追加の対数因子を伴いながら、概ね n^{-1/6} 程度までの率を得る。
本研究はさらに、アルゴリズムの最後の反復に対する高次モーメントの評価を与え、有限サンプルにおける追加の特性付けを行う。

omega},\, \omega \in (1/2, 1] $を用いて非同期Q学習アルゴリズムにより生成されるPolyak-Ruppert平均化反復に対する、高次元中心極限定理における収束率を導出する。状態行動次状態の三つ組の列$ (s_k, a_k, s_{k+1})_{k \geq 0} $が一様に幾何学的にエルゴード的なマルコフ連鎖をなすと仮定することで、アルゴリズムが使用するサンプル数$ n $と、状態数$ S $および行動数$ A $を用いると、超直方体（ハイパー・レクタングル）のクラスに対して$ n^{-1/6} \log^{4} (nSA)$ のオーダーまでの収束率を確立する。この結果を得るために、マルチンゲール差分の和に対する高次元中心極限定理を証明するが、これは独立して興味を持たれる可能性がある。最後に、アルゴリズムの最後の反復に対する高次モーメントの上界を示す。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

非同期Q学習に対するガウス近似

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer