敵対的強化学習による最大ロバスト制御バリア関数の合成と配備
arXiv cs.RO / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、境界付き不確実性をもつ一般の非線形システムに対して、最大ロバスト安全集合を対象とする新しいロバスト制御バリア関数(CBF)フレームワークを提案し、従来手法が保守的な部分集合のみを保証していたという限界に対処する。
- 動的計画法のアイザックス方程式を解く安全度(value)関数を、最大ロバスト安全集合上で安全性を保証するためのロバスト離散時間CBFとして用いることを示す。
- 著者らは、バリア証明書を状態-行動空間へと拡張する強化学習に着想を得た「ロバストQ-CBF」を導入し、閉形式のシステムダイナミクスを明示的に必要とせずに安全性フィルタリングを可能にする。
- このロバストQ-CBFの定式化と敵対的強化学習を組み合わせることで、不確実性の構造が未知なブラックボックスダイナミクスに対する合成と配備を支援する。
- 逆倒立振子のベンチマークおよび36次元の二足歩行ではない(quadruped)シミュレータでの実験により、振子では著しく保守性の低い安全集合が得られ、また四足ロボットでは敵対的な不確実性下で信頼できる安全性の強制が示される。


