1ステップ・サンプリングによる強化学習のための切り詰められた整流フローポリシー

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単峰のガウス分布ポリシーに対する標準的な最大エントロピー強化学習の限界に取り組み、多峰な行動分布をモデル化するための、より表現力のある生成ポリシー族を導入する。
  • 切り詰められた整流フローポリシー(TRFP)を提案する。これは、連続時間のフローベース・ポリシーに対するエントロピー正則化最適化を扱いやすくすることを目的とした、決定論的・確率論的のハイブリッド設計である。
  • TRFPは、勾配の切り詰めと「フローの整流(straightening)」により効果的な1ステップ・サンプリングを可能にし、学習の安定性を向上させるとともに推論コストを削減する。
  • おもちゃの多目標設定および10個のMuJoCoベンチマークでの実験により、TRFPが多峰性の挙動を学習し再現でき、標準的なサンプリング下で強力なベースラインよりも高い性能を達成することが示される。
  • この手法は、1ステップ・サンプリングに制限した場合でも非常に競争力が高く、多段の生成サンプリングが強化学習における主要な実用上の欠点である点に対処する。

Abstract

最大エントロピー強化学習(MaxEnt RL)は、逐次意思決定のための標準的な枠組みになっている一方で、従来のガウス政策パラメータ化は本質的に単峰性であり、複雑な多峰性の行動分布を表現する能力が制限されます。この制約により、より表現力のある代替案として、拡散やフローマッチングに基づく生成政策への関心が高まってきました。とはいえ、こうした政策をMaxEnt RLに組み込むことは、主に2つの理由から困難です。第一に、連続時間の生成政策の尤度とエントロピーは一般に計算困難であり、第二に、多段(マルチステップ)サンプリングは、長い地平線にわたるバックプロパゲーションの不安定性と、大幅な推論遅延の両方を引き起こします。これらの課題に対処するために、勾配の打ち切りとフローのまっすぐ化(flow straightening)によって、勾配を短くして不安定性を抑えつつ、安定した学習と効果的なワンステップ・サンプリングを両立できる、ハイブリッドな決定論−確率論アーキテクチャに基づく枠組みであるTruncated Rectified Flow Policy(TRFP)を提案します。おもちゃの多目的環境および10個のMuJoCoベンチマークに関する実験結果は、TRFPが多峰性の挙動を効果的に捉え、標準的なサンプリング条件のもとでほとんどのベンチマークにおいて強力なベースラインを上回り、ワンステップ・サンプリング下でも非常に競争力が高いことを示しています。