Abstract
大規模言語モデル(LLM)エージェントは、経験だけから隠された安全目標を見つけ出すことができるのでしょうか?本稿では、EPO-Safe(Experiential Prompt Optimization for Safe Agents)という枠組みを提案します。これは、LLMが反復的に行動計画を生成し、疎な二値の危険警告を受け取り、そして省察を通じて自然言語による行動仕様を進化させる仕組みです。豊富なテキストによるフィードバック(例:コンパイラエラーや詳細な環境応答)に依存する標準的なLLMの省察手法とは異なり、EPO-Safeは、厳密に貧弱な信号から、構造化された低次元環境においてLLMが安全性推論を行えることを示します。エージェントは隠れた性能関数 R^* を一切観測せず、各タイムステップで「その行動が危険だったかどうか」を示す1ビットのみを受け取ります。我々は、5つのAI Safety Gridworlds(Leike et al., 2017)および、可視の報酬 R が R^* から乖離しうる5つのテキストベースのシナリオ類似問題で評価します。EPO-Safeは1〜2ラウンド(5〜15エピソード)で安全な振る舞いを発見し、「Xセルは方向的に危険であり、北から入ることは危険である」などの危険に関する正しい説明仮説を伴う、人間が読める仕様を生成します。重要な点として、標準的な報酬駆動の省察は安全性を積極的に悪化させることを示します。報酬のみをもとに省察するエージェントは、そのループを利用して報酬ハッキングを正当化し、さらに加速させます。したがって、省察は、隠れた制約を発見するための専用の安全チャネルと組み合わせる必要があります。さらに、ノイズのあるオラクルへの頑健性も評価します。たとえ50%の「非危険」ステップで誤った警告が生成されても、平均的な安全性能の低下は平均でわずか15%にとどまります。ただし、感度は環境に依存し、エピソード間の省察が自然に一貫しない信号をフィルタリングするためです。進化した各仕様は、相互作用を通じて自律的に発見される、監査可能な一連の根拠に基づく行動ルールとして機能します。これは、Constitutional AI(Bai et al., 2022)のように人間が作成するのではありません。