RL-STPA：安全性クリティカルな強化学習に向けたシステム理論的ハザード分析の適応

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化学習（RL）が安全性クリティカルな領域へ広がる中で、ニューラルネットワークによるブラックボックス性と、訓練時と実運用時の分布シフトのために既存の評価手法がハザードを体系的に特定できないと指摘しています。
その解決として、STPA（System-Theoretic Process Analysis）をRL向けに適応した「RL-STPA」を提案し、時間フェーズ分析とドメイン知識を用いた階層的なサブタスク分解で創発的挙動を捉える点を中核に据えています。
RL-STPAでは、状態・行動空間に対する感度を探索するカバレッジ誘導型の摂動テストを導入し、標準的なRL評価では見落とされうる損失シナリオの発見を支援します。
発見したハザードを訓練へフィードバックするために、反復的なチェックポイントを行い、報酬設計（reward shaping）やカリキュラム設計（curriculum design）で学習を改善します。
自律ドローンのナビゲーションと着陸という安全性クリティカルなテストケースで、RL-STPAが安全に関わる失敗モードを特定できる一方、任意のニューラルポリシーに対して形式的な保証は提供できないことも明確にしています。