ベルマン完全性なしのFitted Q評価:定常重み付けによる手法

arXiv stat.ML / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • オフポリシー強化学習におけるFitted Q-evaluation(FQE)は、既存理論ではベルマン完全性を前提とすることが多いが、現実ではこの条件が満たされないことがしばしばある。
  • 著者らは、ターゲット方策の定常分布に基づくL^2ノルムではベルマン作用素が収縮的である一方、標準的なFQEの回帰は行動分布の下で最適化されているという「ノルムの不一致」を指摘する。
  • この不一致を解消するために、各ベルマン回帰ステップを定常密度比の推定値で再重み付けする「定常重み付け」を提案する。
  • 再重み付けにより、更新がターゲットの定常分布の下で行われたのと同様の振る舞いになり、ベルマン完全性なしで収縮性を回復することを狙う。
  • Bairdの古典的反例を含む実験により、オフポリシーのサンプリング下でも定常重み付けがFQEを安定化し得ることが示される。

Abstract

Fitted Q-evaluation(FQE)は強化学習におけるオフポリシー評価のための基礎的手法ですが、既存の理論は通常、関数クラスのベルマン完全性に依拠しており、この条件は実際の場面でしばしば破られます。これは本質的な規範の不一致によるものです。すなわち、ベルマン作用素は、ターゲット方策の定常分布が誘導するL^2ノルムにおいてγ収縮的であるのに対し、標準的なFQEは行動分布のもとでベルマン回帰を当てはめます。この不一致を解消するために、時間差学習におけるエンファシック・ウェイティングに着想を得て、定常密度比の推定値に基づいて、各ベルマン回帰ステップを再重み付けします。これにより、更新がターゲットの定常分布のもとで行われたかのように振る舞い、ベルマン完全性がなくても収縮性を回復しつつ、回帰に基づく評価の単純さを維持します。Bairdの古典的反例を含む示唆的な実験により、定常重み付けがオフポリシーサンプリング下でFQEを安定化できることが示されます。