学習して計画し、計画して学ぶ：サンプル効率の高い意思決定のための適応的階層型RL-MPC

arXiv cs.RO / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、階層的な計画と学習を統合し、サンプル効率の高い意思決定を実現する適応的階層型強化学習–MPC手法を提案している。
強化学習から得たアクションを用いてMPPIサンプラーを導き、さらにMPPIサンプルを適応的に集約して価値推定を更新する仕組みを採用している。
価値推定の不確実性が高いときにMPPI探索を追加で行うことで、学習の頑健性を高め、結果として政策の獲得を改善する。
レース走行、改変Acrobot、障害物付きLunar Landerなど複数のドメインで実験し、データ効率と性能の向上を示している。
成果として、既存手法に対してタスク成功率が最大72%増加し、非適応的サンプリングに比べて収束が2.1倍速いと報告している。

Abstract

階層構造を持つ計画問題を解くための新しいアプローチを提案します。強化学習とMPC計画を融合します。提案手法は、この2つの計画パラダイムを緊密かつ見事に結び付けます。強化学習のアクションを用いてMPPIサンプラを情報付けし、さらに価値推定を情報付けるためにMPPIサンプルを適応的に集約します。その結果得られる適応的なプロセスは、価値推定が不確かな場合にさらなるMPPI探索を活用し、学習の頑健性と、最終的に得られる方策全体を改善します。これにより、複雑な計画問題を扱うことができ、また、複数のドメイン（レース走行、修正Acrobot、追加障害物付きのLunar Landerを含む）で示されているように、さまざまなアプリケーションへ容易に適応できる頑健な計画アプローチが実現されます。これらのドメインにおける結果は、報酬とタスク成功の両面で、既存手法に比べてデータ効率と全体的な性能がより良いことを示しており、成功率は最大で72%増加しました。加えて、非適応的なサンプリングと比べて収束が加速され（x2.1）、その効果も確認できました。