広告

適応的逆強化学習における反実仮想(カウンターファクチュアル)勾配推定のためのマリアビン解析

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習中に(受動的に)勾配情報を観測することで、順方向学習者の損失関数を復元する逆強化学習(IRL)を研究する。これを適応的逆強化学習(adaptive IRL)とする。
  • 受動的ランジュバン(Langevin)ベースのアルゴリズムを導入し、その訓練には反実仮想勾配(確率ゼロ事象に条件付けられた勾配)が必要となるため、素朴なモンテカルロ推定では効率が悪い。
  • これに対処するため、著者らはマリアビン解析を用いて、反実仮想の条件付き期待値を、条件付けを外した期待値の比として、かつマリアビン量を補助的に加えた形に書き換える。これにより、標準的な収束率で効率よく推定できるようにする。
  • 必要となるマリアビン微分を導出し、一般のランジュバン定式化において、それらを随伴(adjoint)スコロホッド積分(Skorohod integral)で表現する。その結果、具体的な反実仮想勾配推定アルゴリズムに結びつく。
  • 全体としての貢献は、適応的IRLにおける反実仮想勾配推定の中核的なボトルネックを狙う、数学的に裏付けられた推定枠組みである。

広告