要旨: 強化学習者は、意図しない新規の戦略によって高い報酬を達成できることがあります。本研究では、一般的な環境に対するベイズ的な緩和策を検討します。具体的には、エージェントの主観的な報酬範囲を、大きな負の値 -L を含むように拡張し、真の環境の報酬は [0,1] にあるとします。継続して高い報酬を観測した後、ベイズ方策は、もっともらしく -L につながり得る新たな仕組みに対してリスク回避的になります。さらに、予測値が固定なしきい値を下回ったときはいつでも、安全なメンターに制御を委ねる単純なオーバーライド機構を設計します。得られたエージェントについて2つの性質を証明します。(i) 能力: メンターに導かれた探索を、頻度を消失させつつ行うことで、エージェントは自身の最良のメンターに対して劣線形(sublinear)の後悔を達成します。(ii) 安全性: 最適化方策によって、低複雑度で判定可能な述語が、メンターによってその述語がトリガーされる前に起動されることはありません。
Golden Handcuffsがより安全なAIエージェントを可能にする
arXiv cs.LG / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習エージェントに対する「Golden Handcuffs(ゴールデン・ハンドカフ)」型の抑止策を提案する。具体的には、真の環境の報酬が [0,1] にあるのに対し、エージェントの主観的な報酬範囲を、その外側の大きな負のペナルティ値 −L まで拡張する。
- そして、エージェントが一貫して高い報酬を観測した後、ベイズ的な方策は、−L ペナルティにつながり得る新たな報酬の収奪(reward-harvesting)戦略に対してリスク回避的になると主張する。
- 著者らは、エージェントの予測価値が固定の閾値を下回った場合に、安全なメンターへと制御を引き渡す単純な上書き(override)機構を追加する。
- 主な結果として2つを証明している。すなわち、エージェントは、メンターによる誘導付き探索を頻度を逓減させることで、劣後(regret)を準線形以下にできること。さらに、安全性の主張として、最適化する方策によって、メンターがそれを引き金にする前に、指定された低複雑度の「悪い述語(bad predicate)」が発火しないことを満たす。
