適応的逆強化学習における反実仮想（カウンターファクチュアル）勾配推定のためのマリアビン解析

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化学習中に（受動的に）勾配情報を観測することで、順方向学習者の損失関数を復元する逆強化学習（IRL）を研究する。これを適応的逆強化学習（adaptive IRL）とする。
受動的ランジュバン（Langevin）ベースのアルゴリズムを導入し、その訓練には反実仮想勾配（確率ゼロ事象に条件付けられた勾配）が必要となるため、素朴なモンテカルロ推定では効率が悪い。
これに対処するため、著者らはマリアビン解析を用いて、反実仮想の条件付き期待値を、条件付けを外した期待値の比として、かつマリアビン量を補助的に加えた形に書き換える。これにより、標準的な収束率で効率よく推定できるようにする。
必要となるマリアビン微分を導出し、一般のランジュバン定式化において、それらを随伴（adjoint）スコロホッド積分（Skorohod integral）で表現する。その結果、具体的な反実仮想勾配推定アルゴリズムに結びつく。
全体としての貢献は、適応的IRLにおける反実仮想勾配推定の中核的なボトルネックを狙う、数学的に裏付けられた推定枠組みである。