無限ホライズン割引決定プロセスに対するトンプソンサンプリング

arXiv stat.ML / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、報酬と遷移が未知のパラメータに依存する、ボレル（連続であり得る）状態・行動空間をもつ割引付き無限ホライズンMDPにおける学習を扱う。
アダプティブなサンプリングベース手法の解析を支えるための、正準的な確率空間を導入し、このような設定で学習を定義することに伴う困難に対処する。
通常のレグレット（損失）概念は無限ホライズンの方策評価にそのまま適用できないため、著者らはレグレットを、期待される有限時間レグレット、期待される状態レグレット、期待される残差レグレットに分解する指標を提案する。
トンプソンサンプリングに焦点を当て、本論文は、残差レグレット項が、先行研究の有限状態空間での結果をボレル空間に拡張する仮定の下で、指数関数的に高速にゼロへ収束することを証明する。
さらに、確率的な残差レグレットの変種についてほぼ確実な収束を示し、トンプソンサンプリングがモデルに対する完全な学習を達成することを結論づける。