PriPG-RL: いつでも実行可能なMPCを用いた、部分観測系に対する特権プランナー誘導強化学習
arXiv cs.RO / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、部分観測下での強化学習(RL)を、学習時のみ利用可能な特権(privileged)なプランナーと、その状態/モデル情報を通じて改善する枠組みを提案します。
- 特権プランナーとして「いつでも実行可能(anytime-feasible)」なモデル予測制御(MPC)を導入し、学習エージェントは損失のある状態射影に基づいて行動を学習します。
- 学習側では、プランナー知識を蒸留する「Planner-to-Policy Soft Actor-Critic(P2P-SAC)」により、部分観測の不利を緩和してサンプル効率と最終性能の向上を狙います。
- 理論的な解析に加え、NVIDIA Isaac Labでのシミュレーションと、障害物が多い環境でのUnitree Go2四足ロボットへの実機展開によって有効性を検証しています。




