AI Navigate

クラムエル距離の下での分布型ベルマン演算子のスペクトル的再検討

arXiv cs.LG / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クラムエル距離の下で累積分布関数(CDF)レベルで分布型強化学習を分析し、この距離を問題の本質的な幾何として扱う。
  • ベルマン更新はCDFにはアフィンに、CDF同士の差には線形に作用することを示しており、標準的な収縮解析を超えた動力学のより構造化された見方を提供する。
  • 著者らは、CDFレベルの幾何を正確な共役によって実現する正則化スペクトル・ヒルベルト表現を構築し、正則化が零正則化極限で消失して本来のクラムエル距離を回復する。
  • この枠組みは、分布型ベルマン更新の演算子構造を明らかにし、分布型強化学習におけるさらなる関数解析的研究の基盤を確立する。

要旨: Distributional reinforcement learning (DRL) は、期待値よりもベルマン更新の下での完全なリターン分布の進化を研究します。古典的な結果は、分布的ベルマン演算子がクレーマー距離の下で収縮的であり、これは累積分布関数(CDF)の差に対するL^2幾何に対応します。この収縮は方策評価の安定性を保証しますが、既存の解析は主に測度論的であり、ベルマン更新が分布に及ぼす構造的な作用を解明することなく、収束性の特性のみに焦点を当てています。本研究では、CDFレベルで分布的ベルマン動力学を直接分析し、クレーマー幾何学を本質的な解析設定として扱います。このレベルでは、ベルマン更新はCDFにアフィン作用を及ぼし、CDF同士の差には線形作用を及ぼします。そしてその収束性はこの線形作用に対する一様な境界を与えます。この本質的な定式化に基づき、CDFレベルの幾何を正確な共役により実現する正則化スペクトル・ヒルベルト表現の一連を構築します。基礎となるベルマンダイナミクスを変更することなく。正則化は幾何にのみ影響し、零正則化極限で消失し、元のクレーマー距離を回復します。この枠組みは、分布型ベルマン更新の基盤となる演算子構造を明確にし、DRLにおけるさらなる関数解析および演算子理論的解析の基盤を提供します。

返却形式: {"translated": "翻訳されたHTML"}