不確実なMDPに対する堅牢なパラメータ学習

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、不確実性のある遷移を伴う未知のマルコフ決定過程(MDP)の学習と検証を対象とし、既存手法が各遷移確率の不確実性を独立に扱いがちである点を問題にしています。
  • 著者らは遷移確率を共通のパラメータ上の式として表すパラメトリックMDP(pMDP)を提案し、遷移間の代数的な依存関係を反映した不確実性を学習できるようにします。
  • 観測された遷移頻度から不確実性をpMDPのパラメータ空間へ射影し、基となるMDPに対するPAC型の不確実性モデルを得ることを示しています。
  • 生じる信頼集合の解法は計算的に難しいため、信頼集合を扱いやすくするために、健全な多面体(ポリトープ)外側近似を階層的に提案します。
  • 実験により、本手法が古典的な区間ベースの不確実MDP学習よりも、はるかにタイトな不確実性推定を与えることが示されています。