強化学習におけるエルゴード性

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、非エルゴード的な報酬過程が、標準的な RL の目的（多くの軌跡にわたって報酬を平均すること）を、単一の長い軌跡の実運用に対して情報量の乏しいものにしてしまうと主張します。
強化学習における非エルゴード性を、エルゴード的マルコフ連鎖の概念と結びつけ、この問題を示す分かりやすい例を提供します。
非エルゴード的報酬ダイナミクスの下で、個々の軌跡の長期的性能を最適化する既存のアプローチを整理します。
実世界の長時間運用環境における RL の目的関数設計と評価手法に対する影響について論じます。

強化学習では、通常、エージェントが軌跡に沿って収集する報酬の合計の期待値を最大化することを目指します。しかし、これらの報酬を生成する過程が非エルゴード的である場合、期待値、すなわち特定のポリシーに対して無限個の軌跡の平均は、単一の長い軌跡の平均に対して情報量がありません。したがって、実運用で個々のエージェントの性能を評価したい場合、期待値は良い最適化目的にはなりません。本論文では、非エルゴード報酬過程が強化学習エージェントに与える影響を、分かりやすい例を通じて論じ、エルゴード報酬過程の概念を、より広く用いられるエルゴード的マルコフ連鎖の概念と関連付け、非エルゴード報酬ダイナミクスの下で個々の軌跡の長期的性能を最適化する既存の解法を提示します。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

強化学習におけるエルゴード性

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer