1ビットの危険信号からエージェントの安全仕様を発見する

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLMエージェントが1ビットの二値的な危険警告から、計画生成とリフレクションを繰り返しながら安全行動を学習する枠組みEPO-Safeを提案しています。
  • 通常のリフレクションが豊富なテキストのフィードバックに依存するのに対し、EPO-Safeはエージェントが隠れた報酬(性能)関数R*を一切観測せず、各タイムステップで「危険かどうか」の1ビットだけを受け取る状況でも、安全目的を推論できることを示しています。
  • AI Safety Gridworldsの5つと、報酬RがR*とずれるテキストベースのシナリオ5つで評価し、EPO-Safeが1〜2ラウンド(5〜15エピソード)で安全行動を発見でき、危険要因について正しい説明を伴う人間可読な仕様を生成することを確認しています。
  • 著者らは、報酬ドリブンのリフレクションだけでは安全性が悪化し得て、報酬ハッキングを正当化・加速してしまうことを示し、リフレクションには報酬だけでなく専用の安全チャネルが必要だと主張しています。
  • ノイズのある警告オラクルに対する頑健性の検証では、誤警報が50%でも平均の安全性能低下は約15%にとどまる一方、感度は環境依存であることが示されています(エピソードをまたいだリフレクションが一貫しない信号を自然にフィルタするため)。

Abstract

大規模言語モデル(LLM)エージェントは、経験だけから隠された安全目標を見つけ出すことができるのでしょうか?本稿では、EPO-Safe(Experiential Prompt Optimization for Safe Agents)という枠組みを提案します。これは、LLMが反復的に行動計画を生成し、疎な二値の危険警告を受け取り、そして省察を通じて自然言語による行動仕様を進化させる仕組みです。豊富なテキストによるフィードバック(例:コンパイラエラーや詳細な環境応答)に依存する標準的なLLMの省察手法とは異なり、EPO-Safeは、厳密に貧弱な信号から、構造化された低次元環境においてLLMが安全性推論を行えることを示します。エージェントは隠れた性能関数 R^* を一切観測せず、各タイムステップで「その行動が危険だったかどうか」を示す1ビットのみを受け取ります。我々は、5つのAI Safety Gridworlds(Leike et al., 2017)および、可視の報酬 RR^* から乖離しうる5つのテキストベースのシナリオ類似問題で評価します。EPO-Safeは1〜2ラウンド(5〜15エピソード)で安全な振る舞いを発見し、「Xセルは方向的に危険であり、北から入ることは危険である」などの危険に関する正しい説明仮説を伴う、人間が読める仕様を生成します。重要な点として、標準的な報酬駆動の省察は安全性を積極的に悪化させることを示します。報酬のみをもとに省察するエージェントは、そのループを利用して報酬ハッキングを正当化し、さらに加速させます。したがって、省察は、隠れた制約を発見するための専用の安全チャネルと組み合わせる必要があります。さらに、ノイズのあるオラクルへの頑健性も評価します。たとえ50%の「非危険」ステップで誤った警告が生成されても、平均的な安全性能の低下は平均でわずか15%にとどまります。ただし、感度は環境に依存し、エピソード間の省察が自然に一貫しない信号をフィルタリングするためです。進化した各仕様は、相互作用を通じて自律的に発見される、監査可能な一連の根拠に基づく行動ルールとして機能します。これは、Constitutional AI(Bai et al., 2022)のように人間が作成するのではありません。