強化学習における状態別の安全性のための拡張ラグランジュ乗数ネットワーク

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、状態ごとに変化するニューラル乗数ネットワークを用いて、強化学習における状態別の安全制約を学習するためのALaM(拡張ラグランジュ乗数ネットワーク)を提案する。
  • 状態依存の乗数に対して素朴にデュアル勾配上昇を適用すると、デュアル上昇の不安定性とニューラルネットによる状態間の一般化が組み合わさって学習が大きく振動すると主張する。
  • ALaMは、最適近傍の局所的な凸性を高めるために拡張ラグランジュに二次ペナルティを導入し、さらに乗数ネットワークをデュアル目標への教師あり回帰で学習させることで安定化を図る。
  • 著者らは、乗数の収束と、制約付き問題の最適方策の復元が理論的に保証されることを示し、ソフト・アクタークリティック(SAC)と組み合わせたSAC-ALaMとして実装する。
  • 実験では、SAC-ALaMが従来の安全強化学習のベースラインより安全性とリターンの両方で優れ、リスク同定のためのよく較正された乗数も得られることが示される。

Abstract

安全性は、実世界の強化学習(RL)における主要な課題である。安全要件を状態ごとの制約として定式化することは、代表的なパラダイムとして注目されている。ラグランジュ法によって状態ごとの制約を扱うには、すべての状態に対して個別の乗数を必要とし、乗数を近似するためにニューラルネットワークを「乗数ネットワーク」として用いることが求められる。しかし、乗数ネットワークに対して通常の双対勾配上昇を適用すると、深刻な学習の振動が生じる。これは、双対上昇そのものの不安定性が、ネットワークの一般化によって増幅されるためである――すなわち、局所的な行き過ぎ(オーバーシュート)や更新の遅れが隣接する状態へ伝播し、さらなる方策(ポリシー)の揺らぎを増幅させる。既存の安定化手法はスカラー乗数向けに設計されており、状態依存の乗数ネットワークには不十分である。この課題に対処するため、状態ごとの乗数を安定に学習するための補正付きラグランジュ乗数ネットワーク(ALaM)フレームワークを提案する。ALaMは2つの主要な構成要素から成る。第一に、補正付きラグランジアンに二次ペナルティを導入し、乗数の更新遅れを補償するとともに、最適解の近傍で局所的な凸性を確立することで、方策の振動を抑える。第二に、乗数ネットワークを双対目標に向けた教師あり回帰によって訓練し、学習を安定化させ、収束を促進する。理論的に、ALaMが乗数の収束を保証し、その結果として制約付き問題の最適方策を回復できることを示す。このフレームワークに基づき、ソフト・アクター・クリティック(SAC)とALaMを統合して、SAC-ALaMアルゴリズムを開発する。実験により、SAC-ALaMは安全性とリターンの両方において最先端の安全なRLベースラインよりも優れていることが示される。また、学習ダイナミクスを安定化し、リスク同定のために十分に較正された(キャリブレーションのとれた)乗数を良好に学習することも確認される。