ハード制約を超えて:安全なオフライン強化学習のための予算条件付き到達可能性

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントが報酬の最大化と安全制約の両立を求められるマルコフ決定過程(MDP)における安全な強化学習を扱う。安全制約は、最適化を不安定にする要因にもなり得る。
  • 安全な「ハード」な1ステップ安全制約を超えて、安全コストの累積(予算化された)を考慮する安全条件付き到達可能性集合を導入し、安全到達可能性解析を拡張する。
  • 提案手法は、事前計算された到達可能性構造を通じて安全制約を強制することで、不安定になり得るmin/maxやラグランジュ最適化を回避する。
  • さらに、安全条件付き到達可能性集合を用いて、環境との相互作用なしに固定データセットから方策を学習する新しいオフライン安全RLアルゴリズムを提示する。
  • オフライン安全RLのベンチマークおよび海上航行タスクでの実験により、安全性保証を維持したまま、既存のベースラインと同等、またはそれを上回る性能が示される。

概要: マルコフ決定過程(MDP)に基づく逐次意思決定は、多くの実世界の応用を支えています。モデルベース手法とモデルフリー手法の両方が、これらの状況において強力な結果を達成しています。しかし、実世界のタスクでは、報酬の最大化と安全性の制約とのバランスを取る必要があり、しばしば相反する目的が不安定な min/max や敵対的最適化につながり得ます。有望な代替案は、安全到達可能性解析(safety reachability analysis)です。これは、前向き不変な安全状態と行動集合を事前に計算し、この集合の内部から開始するエージェントが、いつまでも安全であり続けることを保証します。しかし、到達可能性に基づくほとんどの手法は、ハードな安全制約にのみ対応しており、累積コスト制約へ到達可能性を拡張した研究はほとんどありません。これに対処するため、まず、報酬最大化と累積的な安全コスト制約を切り離す安全条件付き到達可能性集合を定義します。次に、この集合が、不安定な min/max やラグランジュ最適化なしに安全制約をどのように強制するかを示し、環境との相互作用なしに固定されたデータセットから安全な方策を学習する新しいオフライン安全強化学習アルゴリズムを導入します。最後に、標準的なオフライン安全RLベンチマークおよび実世界の海上航行タスクに関する実験により、本手法が安全性を維持しつつ、最先端のベースラインと同等、またはそれを上回る性能を示すことを確認します。