セーフ・サポートQラーニング:安全でない探索なしで学習する

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全な強化学習に関して、学習中の安全でない状態への到達(訪問)を許さないという、より厳格な要件を提案している。
  • 安全集合に基づく振る舞い方策(behavior policy)を用い、軌道が安全領域の範囲にとどまるという仮定のもとで、その領域内における十分な探索を可能にする枠組みを提示している。
  • 2段階の学習戦略として、まずKL正則化付きベルマン目標によりQ関数を振る舞い方策に近づけるよう制約し、その後学習済みQ値から方策を導出し、パラメトリックな方策抽出で近似する。
  • パラメトリック方策抽出により安全性を保ちつつ最適方策の近似を目指し、この枠組みは異なる行動空間や振る舞い方策の種類に適応できるよう設計されている。
  • 実験では、安定した学習、よく較正された価値(value)推定、安全性の高い振る舞いを、既存ベースラインと同等かそれ以上の性能で実現できたことが報告されている。

Abstract

強化学習(RL)トレーニング中の安全性を確保することは、危険な探索が壊滅的な結果につながり得る現実の応用において極めて重要です。多くの安全なRL手法は、制約や罰則によってリスクを軽減しますが、それでもトレーニング中に危険な状態を探索することは許してしまいます。本研究では、トレーニング中の危険状態の訪問を排除する、より厳格な安全要件を採用します。この目標を達成するために、安全集合によって支持される行動方策に基づく、Q-learningベースの安全なRL枠組みを提案します。誘導される軌道が安全集合の範囲内に留まるという仮定のもとで、この方策は、至近の最適性を必要とせずに、安全領域内で十分な探索を可能にします。Q関数と方策を別々に学習する二段階の枠組みを採用します。具体的には、Q関数が行動方策に近い状態を保つことを制約する、KL正則化されたベルマン目標を導入します。次に、学習済みのQ値から誘導される方策を導出し、最適方策を近似するためのパラメトリックな方策抽出手法を提案します。本手法は、異なる行動空間や行動方策の種類に適応可能な統一的な枠組みを提供します。実験結果は、提案手法が安定した学習と十分に較正された価値推定を達成し、既存のベースラインと比較して同等以上の性能を保ちつつより安全な振る舞いを実現することを示しています。