Deep QP Safety Filter:到達可能性に基づくセーフティフィルタのためのモデルフリー学習
arXiv cs.RO / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Deep QP Safety Filterは、ブラックボックスの動力学系に対する完全にデータ駆動の安全レイヤを提案し、システムモデルを必要とせずに、到達可能性に基づく二次計画法(QP)の安全フィルタを学習する。
- この手法は、Hamilton–Jacobi(HJ)到達可能性とモデルフリー学習を組み合わせ、安全値関数とその導関数の双方に対して収縮ベースの損失を設計し、2つのニューラルネットワークを用いて学習する。
- 著者らは、厳密な設定において、基となる安全値が非滑らかであっても、学習されたクリティックが粘性解(およびその導関数)に収束すると主張している。
- 複数の動力学系(ハイブリッド系を含む)と、いくつかの強化学習タスクにわたる実験により、強力なベースラインと比べて、事前収束の失敗が減少し、より高いリターンに向けた学習がより速いことが示される。
- 全体として本研究は、動力学が不明である、またはデータからしか観測できない状況において、強化学習のためのより安全なモデルフリー制御へとつながる、原理的かつ実用的な道筋を提示している。




