制御付きマルコフ連鎖の遷移確率に対する中心極限定理

arXiv stat.ML / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有限な状態・行動空間をもつ制御付きマルコフ連鎖において、遷移行列のノンパラメトリック推定量に対する中心極限定理（CLT）を確立する。
推定量が漸近的に正規分布に従うための、ログに用いる方策（logging policy）に関する正確な条件を示し、さらにCLTが存在し得ない状況も特定する。
著者らはこれらのCLT結果を拡張し、任意の定常（stationary）確率方策の価値関数、Q関数、アドバンテージ関数について、漸近的正規性を導く。加えて、推定した遷移モデルから最適方策を回復すること（optimal policy recovery）にも適用する。
系（corollary）として、ログデータが確率的（stochastic）であるかどうかを検証する適合度検定を導出し、遷移確率に関する仮説検定を可能にする。
全体として本論文は、漸近的推論による不確実性の定量化を伴う、オフライン方策評価およびオフライン最適方策回復のための新しい統計ツールを提供する。

要旨: 我々は、有限な状態・行動空間をもつ制御マルコフ連鎖（CMC）における遷移行列のノンパラメトリック推定量に対する中心極限定理（CLT）を開発する。これらの結果は、推定量が漸近的に正規となるためのロギング方策に関する正確な条件を確立し、またCLTが存在し得ない状況を明らかにする。次に、それを発展させ、任意の定常確率方策の価値関数、Q関数、およびアドバンテージ関数に対するCLTを導出する。そこには、推定したモデルから回収される最適方策も含まれる。従属性として、適合度検定を導出し、ログデータが確率的であるかどうかをテストできるようにする。これらの結果は、オフライン方策評価および最適方策回収のための新しい統計的手法を提供し、遷移確率に対する仮説検定を可能にする。

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Dev.to

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

制御付きマルコフ連鎖の遷移確率に対する中心極限定理

要点

関連記事

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer