学習して計画し、計画して学ぶ:サンプル効率の高い意思決定のための適応的階層型RL-MPC
arXiv cs.RO / 2026/4/17
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、階層的な計画と学習を統合し、サンプル効率の高い意思決定を実現する適応的階層型強化学習–MPC手法を提案している。
- 強化学習から得たアクションを用いてMPPIサンプラーを導き、さらにMPPIサンプルを適応的に集約して価値推定を更新する仕組みを採用している。
- 価値推定の不確実性が高いときにMPPI探索を追加で行うことで、学習の頑健性を高め、結果として政策の獲得を改善する。
- レース走行、改変Acrobot、障害物付きLunar Landerなど複数のドメインで実験し、データ効率と性能の向上を示している。
- 成果として、既存手法に対してタスク成功率が最大72%増加し、非適応的サンプリングに比べて収束が2.1倍速いと報告している。



