Mean Flow Policy Optimization(平均フローポリシー最適化)
arXiv cs.LG / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、拡散モデルによるポリシー表現の代わりにMeanFlowモデルを用いることで、オンライン強化学習における学習および推論のオーバーヘッドを削減する「Mean Flow Policy Optimization(MFPO)」を提案する。
- 最大エントロピー強化学習の枠組みとsoft policy iterationを用いて探索性を高めながら、MeanFlowベースのポリシーを学習する。
- MFPOは、MeanFlowポリシー固有の課題である行動尤度評価と、soft policy improvementの対応に焦点を当てて解決する。
- MuJoCoおよびDeepMind Control Suiteのベンチマークで、MFPOは拡散ベースの強化学習手法と同等以上の性能を示しつつ、学習・推論時間を大幅に短縮する。
- 著者らは再現性と発展のために、GitHubでMFPOのコードを公開している。




