確率的リセットは強化学習におけるポリシー収束を加速する
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは強化学習における確率的リセットを研究し、表形式の環境およびニューラルネットワークを用いたタスクの双方でポリシー収束を加速することを示している。
- 表形式のグリッド環境では、リセットは探索時間を短縮しない場合でも収束を速める。これは古典的なファーストパッセージ最適化を超える機構を示唆している。
- ニューラルネットワークを用いた価値近似を伴う連続制御では、探索が難しく報酬がまばらな場合に、ランダムリセットは深層RLを改善する。長くて情報量の少ない軌道を打ち切ることにより、価値伝搬を高めつつ最適なポリシーを保持する。
- 本研究は、確率的リセットを単純で調整可能な最適化原理として提示し、統計力学の概念を強化学習における学習加速の実践的な指針へ落とし込む。