Mean Flow Policy Optimization(平均フローポリシー最適化)

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、拡散モデルによるポリシー表現の代わりにMeanFlowモデルを用いることで、オンライン強化学習における学習および推論のオーバーヘッドを削減する「Mean Flow Policy Optimization(MFPO)」を提案する。
  • 最大エントロピー強化学習の枠組みとsoft policy iterationを用いて探索性を高めながら、MeanFlowベースのポリシーを学習する。
  • MFPOは、MeanFlowポリシー固有の課題である行動尤度評価と、soft policy improvementの対応に焦点を当てて解決する。
  • MuJoCoおよびDeepMind Control Suiteのベンチマークで、MFPOは拡散ベースの強化学習手法と同等以上の性能を示しつつ、学習・推論時間を大幅に短縮する。
  • 著者らは再現性と発展のために、GitHubでMFPOのコードを公開している。