悲観的な敵対者の下で後悔と違反保証を伴う楽観的政策学習

arXiv cs.LG / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、状態遷移がエージェントの行動だけでなく、エージェントが制御できない外生的な敵対要因によっても左右される状況での安全な強化学習を扱います。
標準的な制約付きMDPや既存のロバストRLの多くは、敵対的な要因との戦略的な相互作用を明示的に扱えておらず、さらに公称モデルからの逸脱に関する強い前提に依存しがちだと主張します。
著者らは外生要因を敵対的方策としてモデル化し、敵対的ダイナミクスの下でも最適性と安全性の制約を両立する方策の在り方を問いにしています。
エージェントと敵対者の両方に対して楽観性を維持しつつ、認識論的不確実性（epistemic）と偶然的不確実性（aleatoric）を明確に分離するモデルベース手法「Robust Hallucinated Constrained Upper-Confidence RL（RHC-UCRL）」を提案します。
提案手法は、後悔（regret）が準線形であり、かつ制約違反に関する形式的な保証を達成できるとされ、本研究は敵対的ダイナミクスを明示した安全制約付きRLを扱う最初の試みだと位置づけています。

概要: 現実世界の意思決定システムは、状態遷移がエージェントの行動だけでなく、
\textbf{エージェントの制御外にある外生要因}—競合するエージェント、環境の攪乱、または戦略的な敵対者—にも依存する環境で動作する。形式的には、 $s_{h+1} = f(s_h, a_h, \bar{a}_h)+\omega_h$ であり、ここで $\bar{a}_h$ は敵対者／外部の行動、 $a_h$ はエージェントの行動、 $\omega_h$ は加法的ノイズである。このような要因を無視すると、孤立した状況では最適でも、\textbf{導入時に壊滅的に失敗する}方策が得られうる。特に、安全制約を満たす必要がある場合に顕著である。
標準的な制約付きMDPの定式化では、エージェントが状態遷移の唯一の駆動因であると仮定する。しかし、この仮定は安全性が重要な状況では破綻する。既存の頑健強化学習（robust RL）アプローチは、遷移カーネルに対する分布の頑健性によってこの問題に対処しているが、エージェントと外生要因の間の\textbf{戦略的相互作用}を明示的にはモデル化しておらず、既知の公称モデルからの乖離に関する強い仮定に依存している。
本研究では、外生要因を、状態遷移を共同決定する\textbf{敵対的な方策} $\bar{\pi}$ としてモデル化し、そのような敵対者に対して、エージェントがどのようにして最適かつ安全を両立できるかを問う。\emph{我々の知る限り、この分野で、安全性制約付きRLを明示的な敵対ダイナミクスの下で研究した最初の仕事である}。本研究では、\textbf{Robust Hallucinated Constrained Upper-Confidence RL}（\texttt{RHC-UCRL}）を提案する。これは、エージェント方策と敵対者方策の双方に対して楽観性を維持し、認識論的不確実性とアレアトリック的不確実性を明示的に切り分ける、モデルベースのアルゴリズムである。\texttt{RHC-UCRL} は、劣化損失（regret）が劣線形であること、および制約違反に関する保証を達成する。