カプセル：安全な不確実性認識強化学習のための制御理論に基づく行動摂動

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の安全な強化学習の多くが「期待値の中での安全性」にとどまり得るという課題に対し、高次元・未知ダイナミクス下での安全な探索を扱う。
既知のダイナミクス前提や正確な制御アフィンモデル推定を要求せず、オフライン設定で確率的な制御アフィン・ダイナミクスモデルを学習する枠組みを提案する。
学習した不確実性込みモデルを用いて、保守的な安全制約を与える制御バリア関数（CBF）を明示的に構築する。
オンラインの制約ベース行動補正メカニズムでCBF制約を実行時に強制し、課題の達成性能を過度に損なうことなく安全な探索を実現することを目指す。
非線形な連続制御ベンチマークでの実験では、既存ベースラインと同等のリターンを保ちつつ、安全違反を大幅に減らせることを示す。

要旨: 既知でないダイナミクスを伴う高次元システムにおいて安全な探索を確実に行うことは、依然として大きな課題である。既存の安全強化学習手法の多くは、安全性の保証を期待値のもとでのみ与えるため、依然として安全性の違反につながり得る。これに対して制御理論に基づくアプローチは、ハードな制約に基づく安全性保証を提供できる一方で、通常は既知のシステムダイナミクスへのアクセスを仮定するか、あるいは制御アフィンモデルを正確に推定することを要求する。　本論文では、オフライン設定で確率的な制御アフィンのダイナミクスモデルを学習する、安全強化学習の枠組みを提案する。学習したモデルを活用し、モデルの不確実性を組み込んだ制御バリア関数（CBF）を明示的に構成することで、保守的な安全制約を提供する。これらのCBF制約は、オンラインの制約ベースの行動補正メカニズムによって強制されるため、課題の遂行性能を過度に制限することなく安全な探索が可能となる。非線形で複雑な連続制御ベンチマークに関する実験評価により、提案手法は既存のベースラインと同等のリターンを達成しつつ、安全性の違反を大幅に低減できることを示す。