要旨: 我々は、有限な状態・行動空間をもつ制御マルコフ連鎖(CMC)における遷移行列のノンパラメトリック推定量に対する中心極限定理(CLT)を開発する。これらの結果は、推定量が漸近的に正規となるためのロギング方策に関する正確な条件を確立し、またCLTが存在し得ない状況を明らかにする。次に、それを発展させ、任意の定常確率方策の価値関数、Q関数、およびアドバンテージ関数に対するCLTを導出する。そこには、推定したモデルから回収される最適方策も含まれる。従属性として、適合度検定を導出し、ログデータが確率的であるかどうかをテストできるようにする。これらの結果は、オフライン方策評価および最適方策回収のための新しい統計的手法を提供し、遷移確率に対する仮説検定を可能にする。
制御付きマルコフ連鎖の遷移確率に対する中心極限定理
arXiv stat.ML / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、有限な状態・行動空間をもつ制御付きマルコフ連鎖において、遷移行列のノンパラメトリック推定量に対する中心極限定理(CLT)を確立する。
- 推定量が漸近的に正規分布に従うための、ログに用いる方策(logging policy)に関する正確な条件を示し、さらにCLTが存在し得ない状況も特定する。
- 著者らはこれらのCLT結果を拡張し、任意の定常(stationary)確率方策の価値関数、Q関数、アドバンテージ関数について、漸近的正規性を導く。加えて、推定した遷移モデルから最適方策を回復すること(optimal policy recovery)にも適用する。
- 系(corollary)として、ログデータが確率的(stochastic)であるかどうかを検証する適合度検定を導出し、遷移確率に関する仮説検定を可能にする。
- 全体として本論文は、漸近的推論による不確実性の定量化を伴う、オフライン方策評価およびオフライン最適方策回復のための新しい統計ツールを提供する。