ベルマンを超えて:連続時間の政策評価のための高次ジェネレータ回帰

arXiv stat.ML / 2026/4/22

📰 ニュースModels & Research

要点

  • 本論文は、時間的に不均一なダイナミクスのもとで、離散的なクローズドループ軌道から有限ホライゾンの連続時間ポリシー評価を行う手法を扱います。
  • 後退的な放物型方程式が価値サーフェスを決める一方、標準的なベルマン一次ステップ再帰ベースラインはグリッド幅に対して一次精度にとどまることを示します。
  • 著者らは、多段遷移から時刻依存のジェネレータを、モーメント整合の係数で低次の打ち切り(離散化)誤差項を相殺する形で推定します。
  • 得られたサロゲートジェネレータと後退回帰を組み合わせ、ジェネレータのミスペシフィケーション、射影誤差、プーリングバイアス、有限サンプル誤差、スタートアップ誤差までを含むエンドツーエンドの誤差分解を提示します。
  • 複数スケールの較正・ベンチマーク、特徴量やスタートアップのアブレーション、ゲイン不一致に対するストレステストにより、二次推定量がベルマン基準を一貫して改善し、理論が示す“利得が見える”安定なレジームで有効であることが示されます。

要旨: 本研究では、時間不均一なダイナミクスの下での離散的なクローズドループ軌道から、有限ホライズンの連続時間における政策評価を検討する。目標となる価値表面は後退型放物線方程式を解くが、1ステップ再帰から得られるベルマン基準は、グリッド幅に対して一次の精度にとどまる。そこで、低次の打ち切り項を打ち消すモーメント整合係数を用いて、多段(複数ステップ)の遷移から時間依存の生成作用素(ジェネレータ)を推定し、得られたサロゲートと後退回帰を組み合わせる。主要な理論は、生成作用素のミスペック(誤指定)・射影誤差・プーリングのバイアス・有限標本誤差・立ち上がり(スタートアップ)誤差へのエンドツーエンドの分解を与えるとともに、高次の利得が観測されるべき条件を説明する決定頻度のレジームマップも提示する。キャリブレーション研究、4スケールのベンチマーク、特徴量および立ち上がりに関するアブレーション、利得ミスマッチに対するストレステストにわたって、二次推定器は一貫してベルマン基準よりも改善し、理論が可視的な利得を予測するレジームで安定性を保つ。これらの結果により、高次の生成作用素回帰は、明確な作動領域を持つ、解釈可能な連続時間の政策評価手法として位置づけられる。