AI Navigate

自律性の代償: 防御訓練がLLMエージェントの能力を崩す

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、安全性向上のための防御訓練がエージェントの能力を低下させ、高度なプロンプトベースの攻撃を防げないという能力適合性のパラドックスを、97タスクと1,000件の敵対的プロンプトに基づく実験から示している。
  • 多段階エージェントに特有の3つのバイアスを特定する:エージェント能力不足バイアス(無害なタスクにおけるツールの実行・アクションの即時失敗)、連鎖増幅バイアス(初期の失敗がリトライを通じて伝播し、ほぼ全てのタイムアウトを引き起こす)、トリガーバイアス(防御済みモデルが防御なしモデルより性能が低下する一方、単純な攻撃は防御を回避する)。
  • 根本原因はショートカット学習であり、モデルが意味的な脅威の理解よりも表面的な攻撃パターンへ過剰適合している。防御効果が攻撃カテゴリ間で極端にばらつくことがこれで裏付けられる。
  • 発見は、現在の防御パラダイムが単一ターンの拒否ベンチマークを最適化する一方で、マルチステップのツール使用を敵対的条件下で信頼性を欠くものにしており、安全性を維持しつつツール実行能力を保つ新しいアプローチの必要性を訴える。
  • 本研究は、敵対的な環境において安全性と機能性のバランスを取るため、LLMエージェントの評価と防御戦略を再考する必要性を強調している。

Abstract

Large language model (LLM) agents increasingly rely on external tools (file operations, API calls, database transactions) to autonomously complete complex multi-step tasks. Practitioners deploy defense-trained models to protect against prompt injection attacks that manipulate agent behavior through malicious observations or retrieved content. We reveal a fundamental \textbf{capability-alignment paradox}: defense training designed to improve safety systematically destroys agent competence while failing to prevent sophisticated attacks. Evaluating defended models against undefended baselines across 97 agent tasks and 1,000 adversarial prompts, we uncover three systematic biases unique to multi-step agents. \textbf{Agent incompetence bias} manifests as immediate tool execution breakdown, with models refusing or generating invalid actions on benign tasks before observing any external content. \textbf{Cascade amplification bias} causes early failures to propagate through retry loops, pushing defended models to timeout on 99\% of tasks compared to 13\% for baselines. \textbf{Trigger bias} leads to paradoxical security degradation where defended models perform worse than undefended baselines while straightforward attacks bypass defenses at high rates. Root cause analysis reveals these biases stem from shortcut learning: models overfit to surface attack patterns rather than semantic threat understanding, evidenced by extreme variance in defense effectiveness across attack categories. Our findings demonstrate that current defense paradigms optimize for single-turn refusal benchmarks while rendering multi-step agents fundamentally unreliable, necessitating new approaches that preserve tool execution competence under adversarial conditions.