ディープ・クオンタイル・プロセス回帰による分布論的オフポリシー評価

arXiv stat.ML / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、オフポリシー評価（OPE）を「期待収益」だけでなく「収益の全体分布」を推定する観点から捉え直します。
深いクオンタイル・プロセス回帰を用いた量子基準のアプローチにより、DQPOPE（Deep Quantile Process regression-based Off-Policy Evaluation）というOPE手法を提案します。
著者らは、離散的な量子点の推定から連続的なクオンタイル関数の推定へと拡張し、その理論的な新知見も提示しています。
深層ニューラルネットワークを用いた分布論的OPEのサンプル複雑度に関する厳密な解析を行い、DQPOPEが従来の単一の方策価値推定と同程度のサンプル数で全分布を推定できると主張します。
実験では、DQPOPEが標準的なOPE手法よりも精度と頑健性の高い方策価値推定を提供し、分布型強化学習の実用性を高めることが示されています。

Abstract

本論文は、分布の観点からオフポリシー評価（OPE）問題を調査する。既存のほとんどのOPE手法が総リターンの期待値のみに焦点を当てるのに対し、本研究ではリターン分布全体を推定することを目的とする。そのために、深い量子過程回帰（deep quantile process regression）を用いた量子に基づくOPEの手法を導入し、新しいアルゴリズムであるDeep Quantile Process回帰ベースのオフポリシー評価（DQPOPE）を提案する。さらに、本手法は、離散的な量子を推定する既存のアプローチを拡張し、連続的な量子関数を推定することで、深い量子過程回帰技術に関する新たな理論的洞察を提供する。我々の主要な貢献は、深層ニューラルネットワークを用いた分布的OPEに対する厳密なサンプル複雑性の解析であり、理論的解析と実際のアルゴリズム実装を橋渡しする点にある。DQPOPEは、従来手法で単一の方策価値を推定するのに必要な同じサンプルサイズを用いて、リターン分布全体を推定することで統計的な優位性を達成できることを示す。さらに、実験的研究により、DQPOPEが標準的な手法よりも著しく高精度で頑健な方策価値推定を提供し、それによって分布的強化学習アプローチの実用可能性と有効性が向上することを示す。