セーフ・サポートQラーニング:安全でない探索なしで学習する
arXiv cs.LG / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、安全な強化学習に関して、学習中の安全でない状態への到達(訪問)を許さないという、より厳格な要件を提案している。
- 安全集合に基づく振る舞い方策(behavior policy)を用い、軌道が安全領域の範囲にとどまるという仮定のもとで、その領域内における十分な探索を可能にする枠組みを提示している。
- 2段階の学習戦略として、まずKL正則化付きベルマン目標によりQ関数を振る舞い方策に近づけるよう制約し、その後学習済みQ値から方策を導出し、パラメトリックな方策抽出で近似する。
- パラメトリック方策抽出により安全性を保ちつつ最適方策の近似を目指し、この枠組みは異なる行動空間や振る舞い方策の種類に適応できるよう設計されている。
- 実験では、安定した学習、よく較正された価値(value)推定、安全性の高い振る舞いを、既存ベースラインと同等かそれ以上の性能で実現できたことが報告されている。



