ベルマン完全性なしのFitted Q評価:定常重み付けによる手法
arXiv stat.ML / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- オフポリシー強化学習におけるFitted Q-evaluation(FQE)は、既存理論ではベルマン完全性を前提とすることが多いが、現実ではこの条件が満たされないことがしばしばある。
- 著者らは、ターゲット方策の定常分布に基づくL^2ノルムではベルマン作用素が収縮的である一方、標準的なFQEの回帰は行動分布の下で最適化されているという「ノルムの不一致」を指摘する。
- この不一致を解消するために、各ベルマン回帰ステップを定常密度比の推定値で再重み付けする「定常重み付け」を提案する。
- 再重み付けにより、更新がターゲットの定常分布の下で行われたのと同様の振る舞いになり、ベルマン完全性なしで収縮性を回復することを狙う。
- Bairdの古典的反例を含む実験により、オフポリシーのサンプリング下でも定常重み付けがFQEを安定化し得ることが示される。