要約: LLMエージェントのセキュリティは本質的に文脈依存です。例えば、エージェントが取った同じ行為は、行為に至った指示を誰が出したのか、追求されている目的、そしてその行為がその目的に資するかどうかによって、正当な挙動かセキュリティ違反かを表すことがあります。しかし、LLMエージェントに対するセキュリティ攻撃の既存の定義は、しばしばこの文脈的性質を捉えきれていません。その結果、防御は有用性とセキュリティの根本的なトレードオフに直面します。すべての文脈に一様に防御を適用すると著しい有用性の損失を招く一方で、文脈が不十分または適切でない場合には防御を適用するとセキュリティ上の脆弱性が生じる可能性があります。本研究では、文脈的セキュリティの観点から既存の攻撃と防御を体系化するフレームワークを提示します。この目的のために、LLMエージェントの文脈的セキュリティを捉える4つのセキュリティ特性を提案します:タスク整合性(認可された目的の遂行)、行動整合性(それらの目的を満たす個々の行動)、ソース認証(認証済みソースからのコマンドの実行)、データ分離(情報の流れが権限境界を尊重することを保証する)を挙げます。さらに、エージェントがユーザーのタスクを実行する際にこれらのセキュリティ特性が侵害されているかを検証するための一連のオラクル関数を導入します。このフレームワークを用いて、間接的なプロンプト挿入、直接的なプロンプト挿入、ジャイルブレイク、タスクドリフト、メモリ汚染といった既存の攻撃を、1つ以上のセキュリティ特性の侵害として再定義し、これらの攻撃の正確かつ文脈的な定義を提供します。同様に、防御はオラクル関数を強化する機構、またはセキュリティ特性の検証を実行する機構として再定義します。最後に、私たちのフレームワークによって実現されるいくつかの重要な将来の研究方向について論じます。
LLMエージェントのセキュリティを形式化するためのフレームワーク
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、タスク整合性、アクション整合性、ソース認可、データ分離の4つの特性を備えた、LLMエージェントの文脈依存セキュリティフレームワークを導入し、セキュリティが文脈に依存する様子を捉える。
- これらの特性を、エージェントがユーザーのタスクを実行する過程でリアルタイムに検証するオラクル関数を提供し、違反を正確に検出できるようにする。
- 間接的プロンプトインジェクション、直接的プロンプトインジェクション、ジャイルブレイク、タスクの逸脱、メモリ汚染といった攻撃を、1つ以上のセキュリティ特性の違反として再定式化し、正確で文脈に依存した定義を生み出す。
- 防御策は、オラクル検査を強化する機構や、セキュリティ特性の検証を実行する機構として説明され、文脈依存の設定における有用性とセキュリティのトレードオフに対処する。
- 本フレームワークが可能にする、いくつかの重要な今後の研究方向についても論じている。


