共形ポリシー制御（Conformal Policy Control）

arXiv stat.ML / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高リスク環境での安全な強化学習に焦点を当て、新しい行動を探索しつつ安全制約に違反しないように行動の切り替えを調整する手法を扱います。
ユーザーが提示した安全な参照ポリシーを確率的レギュレータとして用い、未検証の最適化ポリシーがどれだけ積極的に振る舞えるかを制御することを提案します。
安全な参照ポリシーから得たデータに対する共形キャリブレーションにより、ユーザーが申告したリスク許容度を確率的に（かつ証明可能な形で）満たします。
先行研究とは異なり、ユーザーが正しいモデルクラスを把握していることや、ハイパーパラメータを調整済みであることを前提にしません。
自然言語の質問応答から生体分子工学まで幅広い実験で、安全な探索が配備直後から可能で、さらに性能向上につながり得ることを示します。

概要: エージェントは、新しい行動を試して探索し、改善しなければなりません。高リスクな環境では、安全制約に違反するエージェントは害を引き起こし得るため、オフラインにする必要があり、その後のあらゆる将来のやり取りが制限されます。古い行動を模倣することは安全ですが、過度な保守性は探索を思いとどまらせます。では、どれくらいの行動変化が「やりすぎ」なのでしょうか。我々は、安全な参照方策を、未検証の最適化方策に対する確率的なレギュレータとしてどのように用いるかを示します。安全な方策のデータに対する適合（コンフォーマル）カルブレーションにより、新しい方策がどれほど攻めた行動を取れるかが決まる一方で、ユーザが宣言したリスク許容度を確実に（証明可能に）満たします。保守的最適化手法とは異なり、ユーザが正しいモデルクラスを特定していることや、ハイパーパラメータを調整していることは仮定しません。従来の適合手法と異なり、我々の理論は、単調でない有界損失関数に対しても、有限サンプルの保証を与えます。自然言語の質問応答から生体分子工学に至る幅広い応用に関する我々の実験は、安全な探索が導入の最初の瞬間から可能であるだけでなく、性能を向上させ得ることを示しています。