無界コストを持つ一般MDPに対する演算子論的基盤とポリシー勾配法

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的な関数空間上の線形作用素を最適化対象とする演算子論的視点を提案し、摂動論を用いて目的関数の導関数をこれらの作用素の関数として表現する。
強化学習理論を、有限状態・有限行動のMDPから一般的な状態空間・行動空間へ拡張し、無界コストを含む設定を含む。
このフレームワークは、一般的な状態空間と行動空間に適用可能な、低計算量のPPO型強化学習アルゴリズムを生み出す。
演算子論的視点の下で既存のRL成果を統一することにより、一般MDPに関する新たな理論的・実践的方向性を浮き彫りにしている。

要旨：マルコフ決定過程（MDP）は、一般的な関数空間上の特定の線形演算子に対する目的関数の最適化として見なされる。確立された線形演算子の摂動理論を用いることで、この観点は目的関数の微分を線形演算子の関数として同定できる。これにより、生成された状態空間および行動空間を持つケースに、多くのよく知られた強化学習の結果を一般化できる。先行するこの種の結果は、有限状態有限行動のMDP設定および特定の線形関数近似を含む設定でのみ確立されていた。この枠組みは、一般的な状態空間および行動空間のMDPに対して、新しい低計算量のPPOタイプの強化学習アルゴリズムを生み出す。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

無界コストを持つ一般MDPに対する演算子論的基盤とポリシー勾配法

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer