あなたのエージェントは、あなたが思うよりも脆い:エージェント型LLMにおける間接インジェクション脆弱性の解明

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、エージェント型LLMが間接プロンプトインジェクション(IPI)に対して脆弱であることを示す。これは、第三者のコンテンツに隠された悪意ある指示によって、通常のマルチステップのツール利用の最中にデータの流出などの許可されていない操作が引き起こされ得るものだ。
  • 著者らは、主に隔離された単一ターンのベンチマークによる既存のセキュリティ評価では、重要な体系的な弱点を見落としていると論じる。そのため、動的なツール呼び出し環境において、9つのLLMバックボーンにまたがる複数のIPI攻撃ベクトルに対して6つの防御戦略を評価する。
  • 結果は、顕著な脆弱性(脆さ)を示している。高度なIPI攻撃は、ほぼすべてのベースライン防御を回避し、さらに一部の緩和策は逆に逆効果となる副作用を導入し得る。
  • 悪意ある操作はほぼ瞬時に発動される場合がある一方で、エージェントの内部の意思決定状態は異常に高いエントロピーを示す。これは検出可能な「潜在的なためらい(latent hesitation)」のシグナルを示唆する。
  • 本研究は、検出アプローチとしてRepresentation Engineering(RepE)を提案する。これは、ツール入力の時点で隠れ状態を監視し、幅広いLLMバックボーンにわたって高精度に不正なアクションを遮断する回路ブレーカー(circuit breaker)を可能にする。

要旨: オープンソースのフレームワークが急速に展開されたことにより、現代のマルチエージェントシステムの開発は大きく前進しました。しかし、制御されていない権限の露出や、エージェント間の相互作用が隠れてしまうといった要因を含む拡張されたアクション空間は、深刻なセキュリティ課題を引き起こします。具体的には、第三者コンテンツの中に悪意ある指示を隠してしまう Indirect Prompt Injections(IPI)は、通常の運用の最中にデータ流出のような、不正なアクションを引き起こし得ます。現在のセキュリティ評価は主として、隔離された単一ターンのベンチマークに依存していますが、複雑で動的な環境におけるこれらエージェントのシステム的な脆弱性は、依然としてきわめて十分に調査されていません。そこでこのギャップを埋めるために、9つのLLMバックボーンに対し、4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を体系的に評価します。重要なのは、評価を完全に動的なマルチステップのツール呼び出し環境内で実施し、現代の自律エージェントが持つ真の攻撃面を捉えることです。二値的な成功率を超えて、我々の多次元的な分析は、顕著な脆さを明らかにします。高度な注入攻撃はほぼすべてのベースライン防御を回避し、また一部の表面的な緩和策は、逆に逆効果を生むことさえあります。さらに、エージェントは悪意ある指示をほぼ瞬時に実行する一方で、その内部状態には異常に高い意思決定エントロピーが見られます。この潜在的な躊躇に動機づけられ、頑健な検出戦略として Representation Engineering(RepE)を調査します。ツール入力位置で隠れ状態を抽出することで、RepE に基づく回路遮断器が、エージェントがそれらをコミットする前に、不正なアクションを確実に特定し、阻止できることを明らかにしました。これは、多様なLLMバックボーンにわたって高い検出精度を達成しています。本研究は、現在のIPI防御の限界を露わにするとともに、耐障害性のあるマルチエージェントアーキテクチャを構築するための非常に実用的なパラダイムを提供します。