良性トラジェクトリを強制する:構造化ワークフローAIエージェント向け行動ベースの「ファイアウォール」

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、機密性の高い外部環境に対してツール呼び出しを実行する構造化ワークフロー型LLMエージェントを対象に、テレメトリ駆動の行動異常検知「ファイアウォール」codenameを提案する。
  • 確認済みの良性ツール呼び出しテレメトリを、許可されるツールの順序・逐次コンテキスト・パラメータ境界を含むパラメータ化決定性有限オートマトン(pDFA)へとコンパイルし、実行時は状態遷移のルックアップで効率的に強制する。
  • Agent Security Bench(ASB)での評価では、攻撃成功率(ASR)が全5シナリオでマクロ平均5.6%まで低下し、さらに3つの構造化ワークフロー内では2.2%となり、最先端のステートレススキャナ(12.8% ASR)を上回る。
  • 構造化設定におけるマルチステップおよびコンテキスト逐次攻撃ではASRが0%となり、合成された情報流出ペイロード(1,000件)のうち有効な構造パスに一致するのはごく一部に留まるが、その生き残りパスでもエンドツーエンドの文字列パラメータガードにより全て失敗する。
  • 実行時オーバーヘッドは低く(1ツール呼び出しあたり2.2 ms)、良性タスク失敗率(BTFR)も2.0%に維持される一方で、未更新のパラメータ境界は同義語置換によって回避され得るため、機密パラメータの厳密一致ホワイトリストが最終的な防御負荷になると指摘している。

Abstract

大規模言語モデルにより駆動される構造化ワークフロー型エージェントは、機微な外部環境に対してツール呼び出しを実行します。我々は、テレメトリ駆動の行動異常検知ファイアウォールである \codename を提案します。シーケンスベースの侵入検知に基づき、\codename は検証済みの良性ツール呼び出しテレメトリを、パラメータ化された決定性有限オートマトン(pDFA)へとコンパイルします。このモデルは、許可されるツールシーケンス、逐次的な文脈、およびパラメータ境界を定義します。実行時には、軽量なゲートウェイが O(1) の状態遷移の構造ルックアップによってこれらの境界を強制し、計算的に高コストな解析を完全にオフラインへと移します。エージェントセキュリティベンチ(ASB)で評価したところ、\codename は5つのシナリオにわたってマクロ平均攻撃成功率(ASR)を 5.6 % 達成します。3つの構造化されたワークフロー内では ASR は 2.2 % まで低下し、ステートレス・スキャナの最先端である Aegis の 12.8 % を上回ります。\codename は、構造化された環境における多段階および文脈逐次型攻撃で ASR を 0 % にします。さらに、1,000 個のアルゴリズム的にスプライスされた情報漏えい(exfiltration)ペイロードに対しては、有効な構造的パスに一致したのは 1.4 % のみであり、それらすべてがエンドツーエンドの文字列パラメータ・ガードに失敗しました(生残した 14 パス中の成功 0、95 % CI [0 %, 23.2 %])。\codename は、良性ワークロード上で良性タスク失敗率(BTFR)を 2.0 % に維持しつつ、1呼び出しあたりの遅延をわずか 2.2~ms に抑えます(\textsc{Aegis} に対する 3.7 \times の高速化)。行動軌跡を効果的にモデル化することで利用可能な攻撃面は大きく縮退しますが、更新されない連続的なパラメータ境界は、同義語置換攻撃に対して依然として脆弱です(回避率 18 %)。したがって、機微パラメータの完全一致ホワイトリスト化が、実行に対する最終的な防御負荷を担うことになります。