敵対的強化学習による最大ロバスト制御バリア関数の合成と配備

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、境界付き不確実性をもつ一般の非線形システムに対して、最大ロバスト安全集合を対象とする新しいロバスト制御バリア関数(CBF)フレームワークを提案し、従来手法が保守的な部分集合のみを保証していたという限界に対処する。
  • 動的計画法のアイザックス方程式を解く安全度(value)関数を、最大ロバスト安全集合上で安全性を保証するためのロバスト離散時間CBFとして用いることを示す。
  • 著者らは、バリア証明書を状態-行動空間へと拡張する強化学習に着想を得た「ロバストQ-CBF」を導入し、閉形式のシステムダイナミクスを明示的に必要とせずに安全性フィルタリングを可能にする。
  • このロバストQ-CBFの定式化と敵対的強化学習を組み合わせることで、不確実性の構造が未知なブラックボックスダイナミクスに対する合成と配備を支援する。
  • 逆倒立振子のベンチマークおよび36次元の二足歩行ではない(quadruped)シミュレータでの実験により、振子では著しく保守性の低い安全集合が得られ、また四足ロボットでは敵対的な不確実性下で信頼できる安全性の強制が示される。

Abstract

堅牢制御バリア関数(CBF)は、最悪の外乱の下でも滑らかな安全性の強制を行うための、原理に基づいたメカニズムを提供します。しかし、既存の手法は一般に、力学系(たとえば制御アフィン形式)や不確実性モデルにおける明示的で閉形式の構造に依存しています。その結果、スケーラビリティと一般性が限られ、ほとんどの堅牢CBFは最大堅牢安全集合の保守的な部分集合のみを認証するにとどまっています。本論文では、有界な不確実性の下での一般的な非線形システムに対する新しい堅牢CBFフレームワークを提案します。まず、動的計画法のイサックス方程式を解く安全性価値関数が、最大堅牢安全集合上で安全を強制する妥当な堅牢離散時間CBFであることを示します。次に、強化学習(RL)の中核となる概念である品質関数(またはQ関数)を採用します。これにより、バリア証明書を状態-行動空間へ持ち上げることで、力学の明示的なモデル化の必要性を取り除き、安全フィルタリングのための新規な堅牢Q-CBF制約を得ます。さらに、敵対的RLと組み合わせることで、ブラックボックスの力学系と不明な不確実性構造を有する一般的な非線形システム上で、堅牢Q-CBFの合成と展開を可能にします。本フレームワークを標準的な倒立振子ベンチマークおよび36次元の四足歩行シミュレータで検証し、倒立振子ではバリアベースのベースラインよりも大幅に保守性の低い安全集合を達成し、また四足歩行では敵対的な不確実性の実現の下でも信頼性の高い安全性強制を実現します。