線形システムにおける強化学習(RL)とモデル予測制御(MPC)統合の体系的レビューとタクソノミ

arXiv cs.RO / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、線形および線形化されたシステムに焦点を当て、強化学習(RL)をモデル予測制御(MPC)へ統合する方法について、2025年までに発表された研究を対象とした体系的文献レビュー(SLR)を行っています。
  • 既存研究は、多次元のタクソノミにより整理されており、RLの役割、RLアルゴリズムの分類、MPCの定式化、コスト関数の構造、適用領域などを含みます。
  • 著者らは横断的な合成を行い、レビュー対象の文献における設計パターンや、これらの次元間に見られる関連の傾向を抽出しています。
  • レビューでは、計算負荷、サンプル効率、ロバスト性、閉ループ保証の必要性といった、繰り返し現れる実務上の課題や方法論的トレンドが明らかにされています。
  • その結果得られた構造化された参照情報は、線形または線形化された予測制御に基づくRL–MPCアーキテクチャの設計・解析を支援することを目的としています。

Abstract

モデル予測制御(MPC)と強化学習(RL)の統合は、制約付き意思決定と適応制御のための有望なパラダイムとして注目を集めている。MPCは、構造化された最適化、明示的な制約の取り扱い、確立された安定性ツールを提供する。一方、RLは、不確実性やモデル不一致が存在する状況で、データ駆動の適応と性能向上をもたらす。RL--MPC統合に関する研究は急速に拡大しているにもかかわらず、特に線形または線形化された予測モデルに基づく制御アーキテクチャについては、文献が断片化したままである。本論文は、線形および線形化されたシステムに対するRL--MPC統合の包括的なシステマティック・レビュー(SLR)を提示し、2025年までに発表された、査読付きかつ形式的にインデックス化された研究を対象とする。レビュー対象の研究は、RLの機能的役割、RLアルゴリズムのクラス、MPCの定式化、コスト関数の構造、適用領域をカバーする多次元の分類法により整理されている。さらに、横断的な統合(クロスディメンジョナル・シンセシス)を行い、レビュー対象のコーパス内で、これらの次元間における繰り返し現れる設計パターンや報告された関連性を特定する。レビューは、方法論的なトレンド、一般的に採用される統合戦略、計算負荷、サンプル効率、頑健性、閉ループ保証といった、繰り返し現れる実践上の課題を明らかにする。その結果得られた統合は、線形または線形化された予測制御の定式化に基づくRL--MPCアーキテクチャを設計または解析しようとする研究者および実務家のための、構造化された参照枠組みを提供する。