モデルベース強化学習におけるクロスフィット付き近位学習

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、隠れた交絡（hidden confounding）があるオフライン設定におけるモデルベース強化学習（RL）のバイアスに焦点を当てる。特に、潜在因子が行動・報酬・観測に影響する部分観測環境（partially observable environments）を対象とする。
既存の先行研究である縮約（reduction）に基づき、交絡を伴うPOMDP（confounded POMDPs）における方策評価（policy evaluation）を、条件付きモーメント制約（CMR: conditional moment restrictions）の下で、報酬放出と観測遷移に関する「ブリッジ関数（bridge functions）」を学習する問題へと再定式化する。
著者らは、ブリッジ学習を、条件付き平均埋め込み（conditional mean embeddings）と条件付き密度（conditional densities）によって表されるノイズ成分（nuisance components）を伴うCMR推定問題として定式化する。
さらに、既存の二段階ブリッジ推定器（two-stage bridge estimator）をK分割のクロスフィット（K-fold cross-fitted）拡張として提案し、元の同定（identification）戦略を維持しつつデータの利用効率を高める。
オラクル比較子による誤差境界（oracle-comparator bound）を通じた理論的保証を提示し、推定誤差を、ノイズ推定に起因する第I段（Stage I）項と、経験平均（empirical averaging）に起因する第II段（Stage II）項に分解する。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

モデルベース強化学習におけるクロスフィット付き近位学習

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化