要旨: 深層強化学習(DRL)は、特に問題が完全観測マルコフ決定過程(MDP)の定式化を許す場合、シミュレーションおよび実物のロボット制御タスクにおいて大きな進展を遂げてきました。しかし観測が基礎となる状態を部分的にしか捉えない場合、問題は部分観測マルコフ決定過程(POMDP)となり、アルゴリズム間の性能ランキングが変化し得ます。本研究では、連続制御ベンチマークの代表的なPOMDPバリアントに対して、近接ポリシー最適化(PPO)、Twin Delayed Deep Deterministic Policy Gradient(TD3)、およびソフトアクタークリティック(SAC)を実験的に比較します。TD3とSACが典型的にPPOを上回る、広く報告されているMDP結果とは逆に、反転が観察されます。すなわち、PPOは部分観測下でより高い頑健性を達成します。この理由として、多段ブートストラップが安定化効果をもたらすことを挙げます。さらに、TD3に多段ターゲットを取り入れたTD3(MTD3)およびSACに多段ターゲットを取り入れたSAC(MSAC)では、頑健性が向上します。これらの知見は、新しい理論的枠組みを必要とせずに、部分観測環境におけるDRLアルゴリズムの選択と適応に関する実用的な指針を提供します。
Multi-Step First:部分観測下で頑健な連続制御を実現する軽量な深層強化学習戦略
arXiv cs.RO / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、部分観測のもとで連続制御に取り組む深層強化学習を扱い、ベンチマークを完全に観測されたMDPではなく、POMDPの変種として定式化する。
- PPO、TD3、SACを比較し、典型的なMDPの結果とは逆の傾向(“inversion”)が見られることを示す。観測が不完全な場合、PPOはより高い頑健性を示す。
- 著者らは、学習プロセスにおけるマルチステップのブートストラップが安定化効果をもたらすことが、PPOの優位性の要因だと説明している。
- TD3およびSACにマルチステップのターゲットを追加した(MTD3およびMSAC)ことで、それらの頑健性が向上し、性能差が縮まる。
- 本研究は、新たな理論的枠組みを導入することなく、部分観測環境で動作するDRLシステムに対するアルゴリズム選択と適応に関する実践的な指針を提供する。
