強化学習における状態別の安全性のための拡張ラグランジュ乗数ネットワーク
arXiv cs.LG / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、状態ごとに変化するニューラル乗数ネットワークを用いて、強化学習における状態別の安全制約を学習するためのALaM(拡張ラグランジュ乗数ネットワーク)を提案する。
- 状態依存の乗数に対して素朴にデュアル勾配上昇を適用すると、デュアル上昇の不安定性とニューラルネットによる状態間の一般化が組み合わさって学習が大きく振動すると主張する。
- ALaMは、最適近傍の局所的な凸性を高めるために拡張ラグランジュに二次ペナルティを導入し、さらに乗数ネットワークをデュアル目標への教師あり回帰で学習させることで安定化を図る。
- 著者らは、乗数の収束と、制約付き問題の最適方策の復元が理論的に保証されることを示し、ソフト・アクタークリティック(SAC)と組み合わせたSAC-ALaMとして実装する。
- 実験では、SAC-ALaMが従来の安全強化学習のベースラインより安全性とリターンの両方で優れ、リスク同定のためのよく較正された乗数も得られることが示される。
関連記事
Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立
Anthropic News
三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」
日経XTECH

ウーバーCEOダラ・コホロシ(AIで運転手を——そして自分まで—置き換える件)
The Verge
API vs Local LLMの『一択』時代は2026年に終わった — 値上げと値下げが同時進行する 25ドル vs 0.87ドル、30倍格差を読み解く
Qiita
Claude Code + Python で AI 情報収集→記事化パイプラインを Phase 3 まで作って分かったこと
Zenn