オーナー・ハーム:AIエージェント安全性に欠けている脅威モデル

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のAIエージェント安全性ベンチマークが、エージェントの提供者(デプロイヤー)を傷つける「オーナー・ハーム」という脅威クラスを見落としていると主張している。
  • Slackの資格情報の流出、Copilotのカレンダー注入による漏えい、Metaのエージェントによる不正なフォーラム投稿などの実例を挙げ、このギャップを示しつつ、デプロイヤーに損害を与えるエージェント行動を8カテゴリに整理した正式な脅威モデル(Owner-Harm)を提案している。
  • 実験では、既存のコンポジショナルな安全性システムが汎用的な犯罪被害タスクでは非常に高い性能(AgentHarmでTPR 100%、FPR 0%)を示す一方、プロンプトインジェクションによるオーナー・ハームでは低性能(AgentDojo注入でTPR 14.8%)にとどまる。
  • 著者らは不足が「オーナー・ハーム」そのものに固有ではないこと(汎用LLMベースラインでほぼ同等の性能)を示し、失敗要因を、環境依存の記号ルールがツール語彙を跨いで一般化できない点に帰している。
  • さらに、ゲートに決定論的な事後監査検証を組み合わせることで検出が改善すること(全体TPR 85.3%まで向上、ハイジャック検出も大幅に増加)を示し、情報カバレッジと検出率の関係を扱うSSDGフレームワークを導入している。

Abstract

既存のAIエージェント安全性ベンチマークは、一般的な犯罪的危害(サイバー犯罪、嫌がらせ、武器合成)に焦点を当てており、別種でありながら商業的に重大な脅威カテゴリである「エージェントが自分自身の導入者(deployers)に危害を加える」ことに対する体系的な見落としが残されています。現実のインシデントはこのギャップを示しています:SlackのAIによる認証情報の持ち出し(2024年8月)、Microsoft 365 Copilotのカレンダー注入による情報漏えい(2024年1月)、およびMetaのエージェントによる権限のないフォーラム投稿で運用データが露出した件(2026年3月)。本研究では、導入者を損なうエージェントの行動を8カテゴリに整理した形式的脅威モデル「Owner-Harm(オーナー危害)」を提案します。防御ギャップを2つのベンチマークで定量化します:構成的安全システムはAgentHarm(一般的な犯罪的危害)でTPR 100% / FPR 0%を達成する一方、AgentDojoの注入タスク(プロンプト注入によって媒介されるオーナー危害)ではわずか14.8%(4/27;95% CI: 5.9%-32.5%)にとどまります。制御された汎用LLMベースラインでは、このギャップはオーナー危害に固有のものではないことが示されます(62.7% vs. 59.3%;差分 3.4 pp)。しかし、ツールの語彙にまたがって一般化できない、環境に結び付いた記号的ルールに起因していることが分かります。事後的に実施した300シナリオのオーナー危害ベンチマークでは、ゲート単体でTPR 75.3% / FPR 3.3%を達成します。さらに決定論的な事後監査型検証器を追加すると、全体のTPRは85.3%(+10.0 pp)に上昇し、ハイジャック検出は43.3%から93.3%へ引き上げられます。これは強い層間補完性を示しています。情報カバレッジ(coverage)と検出率(detection rate)の関係を定式化する、Symbolic-Semantic Defense Generalization(SSDG)フレームワークを導入します。SSDGの妥当性を部分的に裏付ける2つの実験を行いました:文脈剥奪は検出ギャップを3.4倍に増幅します(R = 3.60 vs. R = 1.06)。文脈注入では、テキストの連結ではなく、効果的なオーナー危害検出には、構造化されたゴールとアクションの整合(alignment)が必要であることが明らかになりました。