要旨: 文脈付きMDPは、生物統計から機械学習に至るまで幅広い領域に適用可能な強力なツールである。とはいえ、頑健で理論的裏付けのある手法が欠けていることにより、それらをオフラインデータセットに適応させることは困難であった。本研究は、文脈付きMDPの適応的推定とコスト最適化に向けた新しいアプローチを導入することで、この問題に取り組む。提案する推定器は、我々の知る限りその種のものとして初めてであり、強力な最適性保証を備えている。文脈付きMDPの内生的な性質から生じる、非定常性やモデルの不規則性といった主要な技術的課題を克服することでこれを実現する。保証は、比較的新しく強力な統計手法であるT推定(Baraud, 2011)を用いることにより、完全な一般性のもとで確立する。まず、文脈付きMDPから得られたサンプルに基づいて推定器を選択するための手順を提示し、それを用いて、互いに異なるがそれでもなお意味のある2つの損失関数に対するオラクルリスクの上界を導出する。次に、上述の密度推定を助けとして、最適制御を決定する問題を考察し、コスト関数に対する有限標本の保証を与える。
非定常性なしのオフライン文脈付きMDPにおける適応推定と最適制御
arXiv stat.ML / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、理論的に裏付けられた頑健な手法が不足していたオフライン文脈付きMDPに対して、適応推定とコスト最適化のための新しい方法を提案する。
- 文脈付きMDPに固有の技術的課題、特に内生的な性質から生じる非定常性やモデルの不規則性に対処する。
- Baraud(2011)の統計手法であるT推定(T-estimation)を用いることで、幅広い一般性のもとで強い最適性保証を導く。
- オフラインの文脈付きMDPサンプルから推定器を選択する手順を示し、2種類の異なる損失関数に対するオラクルリスク境界を導出したうえで、最適制御のコストに関する有限サンプル保証も与える。



