sqrt{N}$ の後悔(regret)が成り立つ。後悔の上界は、政策クラスの複雑さによって支配されるプラグイン方策誤差の因子と、環境のダイナミクスの複雑さによって支配される環境の外生的因子とに分解される。これにより、両者をどのようにトレードオフできるかが明確になる。
Functional Natural Policy Gradients
arXiv stat.ML / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ニサンス成分によるバイアスを低減しつつ、オフラインデータから政策を学習するためのクロスフィット型のデバイアス手法を提案する。
- 政策クラスがドンカ条件(Donsker condition)を超える複雑さを持つ場合でも、4Nのレグレット率を達成する学習原理を導出する。
- 理論では、ニサンスリメイダー(誤差の積)が O(N^{-1/2}) であることを必要とし、これにより上記のレグレット保証が成立する。
- 得られるレグレット上界は、プラグイン型の政策誤差項(政策クラスの複雑さに駆動される)と、環境ニサンス項(環境ダイナミクスの複雑さに駆動される)に分解されるため、両者の明示的なトレードオフが明らかになる。



