要旨: Distributional reinforcement learning (DRL) は、期待値よりもベルマン更新の下での完全なリターン分布の進化を研究します。古典的な結果は、分布的ベルマン演算子がクレーマー距離の下で収縮的であり、これは累積分布関数(CDF)の差に対するL^2幾何に対応します。この収縮は方策評価の安定性を保証しますが、既存の解析は主に測度論的であり、ベルマン更新が分布に及ぼす構造的な作用を解明することなく、収束性の特性のみに焦点を当てています。本研究では、CDFレベルで分布的ベルマン動力学を直接分析し、クレーマー幾何学を本質的な解析設定として扱います。このレベルでは、ベルマン更新はCDFにアフィン作用を及ぼし、CDF同士の差には線形作用を及ぼします。そしてその収束性はこの線形作用に対する一様な境界を与えます。この本質的な定式化に基づき、CDFレベルの幾何を正確な共役により実現する正則化スペクトル・ヒルベルト表現の一連を構築します。基礎となるベルマンダイナミクスを変更することなく。正則化は幾何にのみ影響し、零正則化極限で消失し、元のクレーマー距離を回復します。この枠組みは、分布型ベルマン更新の基盤となる演算子構造を明確にし、DRLにおけるさらなる関数解析および演算子理論的解析の基盤を提供します。
返却形式: {"translated": "翻訳されたHTML"}
