SafeAgent：エージェント型システム向けランタイム保護アーキテクチャ

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMエージェントがプロンプトインジェクション攻撃に対して多段ワークフロー、ツール連携、永続コンテキストを通じて脆弱であり、入出力のフィルタリングだけでは信頼できる防御にならないと主張しています。
そこで、SafeAgentというランタイム・セキュリティ・アーキテクチャを提案し、エージェントの安全性を、変化する相互作用の軌跡に対する状態を持った意思決定問題として捉えます。
SafeAgentでは、行動の実行ガバナンスを担うランタイムコントローラと、意味的リスク推論を担うコンテキスト認識型の意思決定コアを分離し、連携させています。
意思決定コアは「コンテキストに応じた高度な機械知能」として形式化され、リスク符号化、効用・コスト評価、帰結モデリング、ポリシー仲裁、状態同期といった構成要素で実装されています。
Agent Security Bench（ASB）およびInjecAgentでの実験では、ベースラインやテキストレベルのガードレールよりも堅牢性が一貫して向上し、アブレーションでは回復の信頼度とポリシー重み付けが安全性と有用性の運用上のトレードオフを左右することが示されます。

概要: 大規模言語モデル（LLM）エージェントは、プロンプトインジェクション攻撃に対して脆弱であり、これがマルチステップのワークフロー、ツール相互作用、永続的なコンテキストを通じて伝播するため、入力・出力のフィルタリングだけでは信頼できる保護としては不十分です。本論文では、エージェントの安全性を、進化する相互作用の軌跡にわたる状態（stateful）付きの意思決定問題として扱う、実行時セキュリティ・アーキテクチャ SafeAgent を提案します。提案設計は、2つの連携コンポーネントによって、実行ガバナンスとセマンティックなリスク推論を分離します。すなわち、エージェントのループ周りでアクションを調停するランタイム・コントローラと、永続セッション状態上で動作する、コンテキストに配慮した意思決定コアです。このコアは「コンテキストに配慮した高度な機械知能」として形式化され、リスク符号化、効用コスト評価、帰結（コンシークエンス）モデリング、ポリシー仲裁、状態同期のためのオペレータを通じて実装されます。Agent Security Bench（ASB）および InjecAgent に対する実験では、SafeAgent が、ベースラインおよびテキストレベルのガードレール手法に比べて一貫してロバスト性を改善しつつ、競争力のある良性（ベニン）タスクの性能を維持することが示されます。さらに、アブレーション研究により、回復（リカバリ）の自信とポリシーの重み付けが、異なる安全性—効用の運用点を決定することが示されています。