Soft MPCritic: 高速化されたモデル予測価値反復

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「soft MPCritic」を提案する。これは、ソフトな価値空間で学習しつつ、オンライン制御と価値ターゲット生成の両方に対してサンプルベースの計画（プランニング）を用いる、RL-MPC（強化学習×モデル予測制御）フレームワークである。
MPCはMPPI（モデル予測パス積分制御）によって実装され、さらに、プランナと学習された価値関数との整合性を高め、計画（プランニング）ホライズンを効果的に延長するために、フィットした価値反復（fitted value iteration）によって終端Q関数を学習する。
本手法は、償却（amortized）によるウォームスタートを追加する。オンライン観測から得られた過去に計画したオープンループのアクション列を再利用することで、バッチ化されたMPPIベースの価値ターゲットをより効率よく計算する。
Soft MPCriticは、次ステップ予測の精度を高めるために、学習済みダイナミクスモデルのアンサンブルを用いたシナリオベースの計画を行う。これにより、短いホライズンでの計画から頑健に学習できる。
著者らは、価値学習、プランナに整合したターゲット、そして償却化（amortization）を組み合わせることで、計算コストの面で現実的かつ、単純な制御タスクから複雑な制御タスクまでスケール可能になると主張している。

概要: 強化学習（RL）とモデル予測制御（MPC）は相補的な強みを持つ一方で、それらを大規模に組み合わせることは計算上の難しさが残っています。本稿では、ソフトMPCritic（soft MPCritic）を提案します。これはRL-MPCの枠組みであり、（ソフトな）価値空間で学習しつつ、オンライン制御と価値目標の生成の両方に対してサンプルベースの計画を用います。soft MPCritic は、モデル予測パス積分制御（MPPI）によってMPCを具体化し、適合値反復によって終端Q関数を学習することで、学習された価値関数をプランナーと整合させ、暗黙的に有効な計画ホライズンを延長します。さらに、バッチ化されたMPPIベースの価値目標を計算する際に、オンライン観測から計画されたオープンループのアクション列を再利用する償却型ウォームスタート戦略を導入します。これにより、soft MPCritic は解の品質を維持しながら計算上実用的になります。soft MPCritic は、次ステップ予測精度のために訓練されたダイナミックモデルのアンサンブルを用いて、シナリオベースの手法で計画します。これらの要素が組み合わさることで、soft MPCritic は、古典的および複雑な制御課題において、頑健で短いホライズンの計画を通じて効果的に学習できることを可能にします。これらの結果は、方策抽出や直接的な長ホライズン計画が失敗し得る状況において、MPC方策を統合するための実用的かつ拡張可能な設計図として、soft MPCritic を位置づけるものです。