Deep QP Safety Filter：到達可能性に基づくセーフティフィルタのためのモデルフリー学習

arXiv cs.RO / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Deep QP Safety Filterは、ブラックボックスの動力学系に対する完全にデータ駆動の安全レイヤを提案し、システムモデルを必要とせずに、到達可能性に基づく二次計画法（QP）の安全フィルタを学習する。
この手法は、Hamilton–Jacobi（HJ）到達可能性とモデルフリー学習を組み合わせ、安全値関数とその導関数の双方に対して収縮ベースの損失を設計し、2つのニューラルネットワークを用いて学習する。
著者らは、厳密な設定において、基となる安全値が非滑らかであっても、学習されたクリティックが粘性解（およびその導関数）に収束すると主張している。
複数の動力学系（ハイブリッド系を含む）と、いくつかの強化学習タスクにわたる実験により、強力なベースラインと比べて、事前収束の失敗が減少し、より高いリターンに向けた学習がより速いことが示される。
全体として本研究は、動力学が不明である、またはデータからしか観測できない状況において、強化学習のためのより安全なモデルフリー制御へとつながる、原理的かつ実用的な道筋を提示している。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH