適応的アクションスケーリングによる制約を考慮した強化学習

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、探索中の制約違反を抑えつつ強いタスク性能を維持することで、安全な強化学習に取り組む。
単一の相反する報酬／安全ポリシーを用いるのではなく、また外部のハードな安全フィルタに頼るのでもなく、予測される制約違反に基づいてアクションを適応的にスケーリングするモジュール型のコスト認識レギュレータを導入する。
このレギュレータは、探索を損なわないようにアクションを滑らかに調整しつつ、エージェントが過度に制約されてしまうような退化的な抑制を回避するよう設計されている。
実験により、本手法がSACやTD3のようなオフポリシー強化学習アルゴリズムと統合でき、制約が疎なSafety Gymのロコモーション課題において最先端の「リターン対コスト比」を達成することが示される。
報告された結果では、従来手法に比べて制約違反が最大126×少なくなり、リターンも1桁以上増加している。

概要: 安全強化学習（RL）は、学習中の探索に起因して生じる危険な行動を、制約違反を減らしつつ課題の遂行性能を維持することで緩和することを目指します。既存の手法は一般に、報酬と安全性を同時に最適化するために単一の方策に依存しますが、目的が衝突することで不安定性が生じ得ます。あるいは、外部の安全フィルタを用いて行動を上書きし、事前のシステム知識を必要とするものもあります。本論文では、予測される制約違反に基づいてエージェントの行動をスケールさせる、モジュール型のコスト認識レギュレータを提案します。これにより、方策を上書きするのではなく、滑らかな行動調節によって探索を維持します。このレギュレータは、制約違反を最小化しつつ、行動の退化的な抑制を回避するように学習されます。本アプローチは、SAC や TD3 のようなオフポリシーRL手法にシームレスに統合でき、コストが疎な Safety Gym のロコモーション課題において最先端の「リターン対コスト比」を達成します。制約違反を最大で 126 倍まで削減し、先行手法と比べてリターンを 1 桁以上増加させます。