確率的リセットは強化学習におけるポリシー収束を加速する

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは強化学習における確率的リセットを研究し、表形式の環境およびニューラルネットワークを用いたタスクの双方でポリシー収束を加速することを示している。
表形式のグリッド環境では、リセットは探索時間を短縮しない場合でも収束を速める。これは古典的なファーストパッセージ最適化を超える機構を示唆している。
ニューラルネットワークを用いた価値近似を伴う連続制御では、探索が難しく報酬がまばらな場合に、ランダムリセットは深層RLを改善する。長くて情報量の少ない軌道を打ち切ることにより、価値伝搬を高めつつ最適なポリシーを保持する。
本研究は、確率的リセットを単純で調整可能な最適化原理として提示し、統計力学の概念を強化学習における学習加速の実践的な指針へ落とし込む。

Abstract

確率的リセットとは、ダイナミカルな過程が断続的に固定の参照状態へ戻される現象で、初回到達時間の最適化を目的とする強力な機構として浮上してきました。既存の理論は主に静的で、学習を伴わない過程を扱います。ここで、確率的リセットが経験を通じて基礎となるダイナミクスが適応する強化学習とどのように相互作用するかを問います。表形式のグリッド環境では、リセットが方策の収束を加速することを見出します。それが純粋に拡散的なエージェントの探索時間を短縮しない場合でも、古典的な初回到達時間の最適化を超える新しい機構を示唆します。ニューラルネットワークベースの価値推定を用いた連続制御タスクでは、探索が困難で報酬が希薄な場合に、ランダムなリセットが深層強化学習を改善することを示します。時間割引とは異なり、リセットは最適な方策を保持しつつ、長くて無情報的な軌道を切り捨てることによって収束を加速し、価値伝搬を高めます。我々の結果は、確率的リセットを学習を加速させるための単純で調整可能な機構として確立し、統計力学の標準的な現象を強化学習の最適化原理へ翻訳します。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

確率的リセットは強化学習におけるポリシー収束を加速する

要点

Abstract

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer