モデルベース強化学習におけるクロスフィット付き近位学習

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、隠れた交絡(hidden confounding)があるオフライン設定におけるモデルベース強化学習(RL)のバイアスに焦点を当てる。特に、潜在因子が行動・報酬・観測に影響する部分観測環境(partially observable environments)を対象とする。
  • 既存の先行研究である縮約(reduction)に基づき、交絡を伴うPOMDP(confounded POMDPs)における方策評価(policy evaluation)を、条件付きモーメント制約(CMR: conditional moment restrictions)の下で、報酬放出と観測遷移に関する「ブリッジ関数(bridge functions)」を学習する問題へと再定式化する。
  • 著者らは、ブリッジ学習を、条件付き平均埋め込み(conditional mean embeddings)と条件付き密度(conditional densities)によって表されるノイズ成分(nuisance components)を伴うCMR推定問題として定式化する。
  • さらに、既存の二段階ブリッジ推定器(two-stage bridge estimator)をK分割のクロスフィット(K-fold cross-fitted)拡張として提案し、元の同定(identification)戦略を維持しつつデータの利用効率を高める。
  • オラクル比較子による誤差境界(oracle-comparator bound)を通じた理論的保証を提示し、推定誤差を、ノイズ推定に起因する第I段(Stage I)項と、経験平均(empirical averaging)に起因する第II段(Stage II)項に分解する。