PriPG-RL: いつでも実行可能なMPCを用いた、部分観測系に対する特権プランナー誘導強化学習

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、部分観測下での強化学習(RL)を、学習時のみ利用可能な特権(privileged)なプランナーと、その状態/モデル情報を通じて改善する枠組みを提案します。
  • 特権プランナーとして「いつでも実行可能(anytime-feasible)」なモデル予測制御(MPC)を導入し、学習エージェントは損失のある状態射影に基づいて行動を学習します。
  • 学習側では、プランナー知識を蒸留する「Planner-to-Policy Soft Actor-Critic(P2P-SAC)」により、部分観測の不利を緩和してサンプル効率と最終性能の向上を狙います。
  • 理論的な解析に加え、NVIDIA Isaac Labでのシミュレーションと、障害物が多い環境でのUnitree Go2四足ロボットへの実機展開によって有効性を検証しています。

Abstract

本論文は、訓練中にのみ利用可能な、特権的でいつでも実行可能(anytime-feasible)なプランナ・エージェントを活用することで部分観測下における強化学習(RL)方策の訓練問題に取り組む。これを、近似的な動力学モデルと特権的な状態情報へのアクセスを持つプランナ・エージェントが、真の状態のロッシーな射影(損失を伴う射影)しか観測しない学習エージェントを導く、部分観測マルコフ決定過程(POMDP)として形式化する。本枠組みを実現するために、プランナ・エージェントとして機能する、いつでも実行可能なモデル予測制御(MPC)アルゴリズムを提案する。学習エージェントに対しては、Planner-to-Policy Soft Actor-Critic(P2P-SAC)を提案する。これは、部分観測性を緩和するためにプランナ・エージェントの特権的知識を蒸留(distill)し、その結果としてサンプル効率と最終的な方策性能の両方を改善する手法である。本枠組みを、厳密な理論解析によって支える。最後に、NVIDIA Isaac Lab を用いたシミュレーションで本アプローチを検証し、障害物が豊富な複雑な環境を移動する実世界の Unitree Go2 四足ロボットへの正常なデプロイに成功する。