強化学習による方策改善

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的な「検証可能な報酬を用いる強化学習」アプローチはオープンループであり、モデルの更新が実際に改善につながっているかを検証せずにバッチ／グループの報酬統計から最適化するため、ドリフトや崩壊が起こり得ると主張する。
学習後（ポストトレーニング）を、反復を通じた累積的な方策改善を最大化するという明示的な目的として捉え直すことで、Policy Improvement Reinforcement Learning（PIRL）を提案し、最終タスク性能との整合性を理論的に示す。
さらに、スライディングウィンドウのベースラインに対する回顧的な検証（retrospective verification）を用いて有益な更新を強め、有害な更新を抑制するクローズドループ手法である Policy Improvement Policy Optimization（PIPO）を提案する。
著者らは理論結果として、PIPO が期待値の下で PIRL の目的に対して上昇（ascent）を行うことを示し、数学的推論ベンチマークでの実験により、GRPO および関連バリアントに比べて安定性と性能が改善することを報告する。