要旨:マルコフ決定過程(MDP)は、一般的な関数空間上の特定の線形演算子に対する目的関数の最適化として見なされる。確立された線形演算子の摂動理論を用いることで、この観点は目的関数の微分を線形演算子の関数として同定できる。これにより、生成された状態空間および行動空間を持つケースに、多くのよく知られた強化学習の結果を一般化できる。先行するこの種の結果は、有限状態有限行動のMDP設定および特定の線形関数近似を含む設定でのみ確立されていた。この枠組みは、一般的な状態空間および行動空間のMDPに対して、新しい低計算量のPPOタイプの強化学習アルゴリズムを生み出す。
無界コストを持つ一般MDPに対する演算子論的基盤とポリシー勾配法
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的な関数空間上の線形作用素を最適化対象とする演算子論的視点を提案し、摂動論を用いて目的関数の導関数をこれらの作用素の関数として表現する。
- 強化学習理論を、有限状態・有限行動のMDPから一般的な状態空間・行動空間へ拡張し、無界コストを含む設定を含む。
- このフレームワークは、一般的な状態空間と行動空間に適用可能な、低計算量のPPO型強化学習アルゴリズムを生み出す。
- 演算子論的視点の下で既存のRL成果を統一することにより、一般MDPに関する新たな理論的・実践的方向性を浮き彫りにしている。