価値グラディエントフローによる強化学習

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、参照分布(オフラインRLのデータセットやLLMのRL微調整のベースモデル)に向けた正則化が、外れた分布への外挿によって生じる価値の過度な最適化を防ぐうえで重要だとする「行動正則化型強化学習(RL)」を扱います。
  • 提案手法である Value Gradient Flow(VGF)は、行動正則化RLを「参照分布から価値に基づく最適方策分布へ写像する」最適輸送問題として定式化し、スケーラブルな枠組みを提示します。
  • VGFは輸送問題を離散勾配フローで解き、参照分布から初期化した粒子を価値勾配が導くことで方策を得ます。
  • 分析によれば、VGFは「輸送予算(transport budget)」を制御することで正則化を暗黙に実現し、さらに明示的な方策パラメータ化を不要にしつつ表現力と柔軟性を保つとしています。
  • 実験の結果、VGFはオフラインRLベンチマーク(D4RL、OGBench)およびLLM向けRLタスクで先行手法を大きく上回り、最先端の性能を達成し、コードも公開されています。