オーナー・ハーム:AIエージェント安全性に欠けている脅威モデル
arXiv cs.AI / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のAIエージェント安全性ベンチマークが、エージェントの提供者(デプロイヤー)を傷つける「オーナー・ハーム」という脅威クラスを見落としていると主張している。
- Slackの資格情報の流出、Copilotのカレンダー注入による漏えい、Metaのエージェントによる不正なフォーラム投稿などの実例を挙げ、このギャップを示しつつ、デプロイヤーに損害を与えるエージェント行動を8カテゴリに整理した正式な脅威モデル(Owner-Harm)を提案している。
- 実験では、既存のコンポジショナルな安全性システムが汎用的な犯罪被害タスクでは非常に高い性能(AgentHarmでTPR 100%、FPR 0%)を示す一方、プロンプトインジェクションによるオーナー・ハームでは低性能(AgentDojo注入でTPR 14.8%)にとどまる。
- 著者らは不足が「オーナー・ハーム」そのものに固有ではないこと(汎用LLMベースラインでほぼ同等の性能)を示し、失敗要因を、環境依存の記号ルールがツール語彙を跨いで一般化できない点に帰している。
- さらに、ゲートに決定論的な事後監査検証を組み合わせることで検出が改善すること(全体TPR 85.3%まで向上、ハイジャック検出も大幅に増加)を示し、情報カバレッジと検出率の関係を扱うSSDGフレームワークを導入している。



