ダイナ・スタイルの安全性強化学習:不確実性の中で安全に行動する

arXiv cs.LG / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、強化学習(RL)における根本的な課題である「学習中の安全性」、特に高次元で未知のダイナミクスを持つ環境での安全確保に焦点を当てています。
  • Dyna-style Safety Augmented Reinforcement Learning(Dyna-SAuR)として、安全フィルタと制御ポリシーを、不確実性を考慮した学習済みダイナミクスモデルにより同時に学習する新しい手法を提案しています。
  • 学習された安全フィルタは、失敗モードや不確実性が高い領域を避けるように設計されており、安全性を保ちつつ効果的に誘導します。
  • 学習モデルが改善されることで「安全でかつ確実な」状態の集合を広げられるため、従来の安全フィルタにありがちな過度な保守性を抑えられると述べています。
  • CartPoleおよびMuJoCo Walkerでの実験では、Dyna-SAuRが最先端手法に比べて失敗を約2桁(2 orders of magnitude)減らすことを示しています。

要旨: 安全性は強化学習(RL)において、特に学習中に依然として未解決の問題である。安全フィルタは安全な探索への対処として有望である一方で、一般に未知のダイナミクスをもつ高次元システムにはうまく適合しない。そこで本研究では、学習した不確実性を考慮したダイナミクスモデルを用いて、スケーラブルな安全フィルタと制御ポリシーの両方を学習する、Dyna-style Safety Augmented Reinforcement Learning(Dyna-SAuR)という新しいアルゴリズムを提案する。これには最小限の領域知識しか必要としない。フィルタは失敗や高い不確実性領域を回避する。したがって、より良いモデルは安全かつ確実な状態の集合を拡大し、フィルタの保守性を低減する。Dyna-SAuRの有効性を、目標到達型CartPoleおよびMuJoCo Walkerで示し、最先端手法と比べて失敗を2桁(オーダー)低減する。