軌道最適化における分布強化学習を用いたフローベース方策

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、軌道最適化のための強化学習アルゴリズムFP-DRLを提案する。一般的な対角ガウス方策のパラメータ化を、フローマッチングによって学習されるフローベースの方策に置き換えることで、多峰性の解をより適切に捉えることを目指す。
このフローベース方策表現と分布強化学習を組み合わせ、期待収益だけでなく、収益の分布全体を学習・最適化する。多解が存在する状況で、方策更新のためのより強い指針を提供することを狙いとしている。
著者らは、従来の強化学習が平均／期待収益に依存することで、多峰性の構造が崩れてしまい、最適な行動のカバレッジが限定されると主張している。この問題意識から、分布的な取り扱いが動機づけられている。
MuJoCoベンチマークでの実験では、FP-DRLが大部分の制御タスクで最先端性能に到達し、ベースラインのフローベース方策手法と比較して表現能力の向上を示した。
全体として、本研究の貢献は、複雑な制御／軌道問題において複数の異なる最適な結果が存在する場合に、性能とより豊かな方策表現を改善することを目的としている。

要旨: 強化学習（RL）は、複雑な制御および意思決定の課題に対処するうえで非常に有効であることが証明されています。しかし、ほとんどの従来のRLアルゴリズムでは、方策は一般に対角ガウス分布としてパラメータ化されており、そのため方策が多峰性の分布を捉えることが制約されます。これにより、多解をもつ問題において最適解の全範囲をカバーすることが難しくなり、リターンが平均値に還元されることで、その多峰性が失われ、結果として方策更新のための十分な指針が得られません。これらの問題に対し、我々は分布強化学習を伴うフローベース方策（FP-DRL）と呼ばれるRLアルゴリズムを提案します。このアルゴリズムは、フローマッチングによって方策をモデル化し、計算効率の高さと複雑な分布に適合できる能力の両方を提供します。さらに、分布強化学習のアプローチを用いて、リターン全体の分布をモデル化し最適化することで、多峰性の方策更新をより効果的に導き、エージェントの性能を向上させます。MuJoCoベンチマークにおける実験結果から、FP-DRLアルゴリズムは、ほとんどのMuJoCo制御タスクにおいて最先端（SOTA）の性能を達成し、加えてフローベース方策の表現能力が優れていることが示されます。