1ステップ・サンプリングによる強化学習のための切り詰められた整流フローポリシー
arXiv cs.LG / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単峰のガウス分布ポリシーに対する標準的な最大エントロピー強化学習の限界に取り組み、多峰な行動分布をモデル化するための、より表現力のある生成ポリシー族を導入する。
- 切り詰められた整流フローポリシー(TRFP)を提案する。これは、連続時間のフローベース・ポリシーに対するエントロピー正則化最適化を扱いやすくすることを目的とした、決定論的・確率論的のハイブリッド設計である。
- TRFPは、勾配の切り詰めと「フローの整流(straightening)」により効果的な1ステップ・サンプリングを可能にし、学習の安定性を向上させるとともに推論コストを削減する。
- おもちゃの多目標設定および10個のMuJoCoベンチマークでの実験により、TRFPが多峰性の挙動を学習し再現でき、標準的なサンプリング下で強力なベースラインよりも高い性能を達成することが示される。
- この手法は、1ステップ・サンプリングに制限した場合でも非常に競争力が高く、多段の生成サンプリングが強化学習における主要な実用上の欠点である点に対処する。




