学習された安全フィルタと適応的コンフォーマル推論による安全制御

arXiv cs.RO / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、危険な名目(nominal)方策に対して制御システムの安全性を確保するための学習型安全フィルタと適応的コンフォーマル推論を組み合わせた Adaptive Conformal Filtering(ACoFi)を提案する。
  • ACoFiは、観測された予測誤差と、名目方策の安全性評価に対する不確実性レンジ推定を用いて、切替基準を動的に更新する。
  • 推定されたレンジが名目アクションの安全性が低い可能性を示す場合、固定しきい値に依存せず学習された安全方策へ切り替える。
  • 「ソフト」な安全保証として、名目方策の予測安全性に対する不確実性の誤った定量化の発生率が、ユーザーが指定したパラメータによって漸近的に上から抑えられることを示す。
  • Dubinsカ―のシミュレーションとSafety Gymnasiumでの評価により、ACoFiは固定しきい値ベースラインよりも、学習された安全性が高く安全違反が少ないことを示し、特に分布外(out-of-distribution)では改善が顕著である。

Abstract

安全フィルタは、安全でない公称(nominal)方策を用いる制御システムの安全性を確保するために有効な手段であることが示されてきました。従来の合成手法におけるスケーラビリティの課題に対処するため、高次元の状態および制御空間をもつシステム向けの安全フィルタを設計する学習ベースのアプローチが提案されています。しかし、これらのモデルの意思決定において避けられない誤りが生じるため、その信頼性や提供される安全性保証が問題となります。本論文では、学習されたハミルトン=ヤコビ到達可能性(reachability)に基づく安全フィルタと、適応的(adaptive)な共形推論(conformal inference)を組み合わせた手法である Adaptive Conformal Filtering(ACoFi)を提示します。ACoFiのもとでは、フィルタは、行動の安全性に関する予測において観測された誤りに基づいて、切り替え基準を動的に調整します。公称方策の出力が取り得る安全性の値の範囲を用いて、安全性評価における不確実性を定量化します。その範囲が危険である可能性を示す場合、フィルタは公称方策から学習された安全な方策へ切り替えます。ACoFiが、公称方策の予測における安全性の不確実性を誤って定量化する率について、ユーザが定めるパラメータによって漸近的に上界が与えられることを示します。これは、強い(hard)安全性保証ではなくソフトな(soft)安全性保証を提供するものです。ACoFiをDubins carのシミュレーションおよびSafety Gymnasium環境で評価し、固定された切り替え閾値を用いるベースライン手法と比べて、特に分布外(out-of-distribution)シナリオにおいて、より高い学習済みの安全性値を達成し、安全違反もより少なくすることで、著しく優れていることを実証的に示します。