Mean Flow Policy Optimization（平均フローポリシー最適化）

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、拡散モデルによるポリシー表現の代わりにMeanFlowモデルを用いることで、オンライン強化学習における学習および推論のオーバーヘッドを削減する「Mean Flow Policy Optimization（MFPO）」を提案する。
最大エントロピー強化学習の枠組みとsoft policy iterationを用いて探索性を高めながら、MeanFlowベースのポリシーを学習する。
MFPOは、MeanFlowポリシー固有の課題である行動尤度評価と、soft policy improvementの対応に焦点を当てて解決する。
MuJoCoおよびDeepMind Control Suiteのベンチマークで、MFPOは拡散ベースの強化学習手法と同等以上の性能を示しつつ、学習・推論時間を大幅に短縮する。
著者らは再現性と発展のために、GitHubでMFPOのコードを公開している。