Abstract
大規模言語モデルにより駆動される構造化ワークフロー型エージェントは、機微な外部環境に対してツール呼び出しを実行します。我々は、テレメトリ駆動の行動異常検知ファイアウォールである
\codename を提案します。シーケンスベースの侵入検知に基づき、\codename は検証済みの良性ツール呼び出しテレメトリを、パラメータ化された決定性有限オートマトン(pDFA)へとコンパイルします。このモデルは、許可されるツールシーケンス、逐次的な文脈、およびパラメータ境界を定義します。実行時には、軽量なゲートウェイが O(1) の状態遷移の構造ルックアップによってこれらの境界を強制し、計算的に高コストな解析を完全にオフラインへと移します。エージェントセキュリティベンチ(ASB)で評価したところ、\codename は5つのシナリオにわたってマクロ平均攻撃成功率(ASR)を 5.6
% 達成します。3つの構造化されたワークフロー内では ASR は 2.2
% まで低下し、ステートレス・スキャナの最先端である Aegis の 12.8
% を上回ります。\codename は、構造化された環境における多段階および文脈逐次型攻撃で ASR を 0
% にします。さらに、1,000 個のアルゴリズム的にスプライスされた情報漏えい(exfiltration)ペイロードに対しては、有効な構造的パスに一致したのは 1.4
% のみであり、それらすべてがエンドツーエンドの文字列パラメータ・ガードに失敗しました(生残した 14 パス中の成功 0、95
% CI [0
%, 23.2
%])。\codename は、良性ワークロード上で良性タスク失敗率(BTFR)を 2.0
% に維持しつつ、1呼び出しあたりの遅延をわずか 2.2~ms に抑えます(\textsc{Aegis} に対する 3.7
\times の高速化)。行動軌跡を効果的にモデル化することで利用可能な攻撃面は大きく縮退しますが、更新されない連続的なパラメータ境界は、同義語置換攻撃に対して依然として脆弱です(回避率 18
%)。したがって、機微パラメータの完全一致ホワイトリスト化が、実行に対する最終的な防御負荷を担うことになります。