違反データが限られた状況でオフラインに学習するための、安全な方策を生成するモデルベースの先行コスト生成

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、安全性が重要な意思決定に不可欠な、危険なオンラインでの試行錯誤なしにオフラインデータから制約を満たす（安全な）方策を学習する方法を扱っています。
既存のオフライン安全強化学習が直面する重要な失敗要因として、危険サンプルが乏しい（あるいは存在しない）場合に「すべてのデータを一様に安全」とみなすため、数ステップ先で必ず制約違反につながる「安全だが実行不可能（safe-but-infeasible）な状態」を見落としてしまう点を指摘しています。
提案手法PROCOは、オフラインから学習したダイナミクスモデルと、LLMが生成する“危険な状態”に関する自然言語知識に基づいて作る保守的なコスト関数を用い、違反が観測されていなくてもリスク推定を可能にします。
さらにPROCOは、モデルベースのロールアウトで反事実的な危険サンプルを多様に合成し、実行可能性の特定と実行可能性に導かれた方策学習を改善します。
Safety-Gymnasiumの複数タスクで、PROCOは各種のオフライン安全RLアルゴリズムと容易に組み合わせられ、ベースラインや行動クローンとの比較で制約違反の低減と安全性能の向上を一貫して示しています。