AIエージェントにおけるセッション間脅威：ベンチマーク、評価、アルゴリズム

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、既存のAIエージェント用ガードレールが「記憶を持たない（memoryless）」ため、攻撃者が攻撃を複数セッションに分散すると、各メッセージ単体を検出する仕組みをすり抜けられると主張している。
CSTM-Benchという新しいベンチマークを提案し、26の攻撃タクソノミーをキルチェーン段階ごとに分類し、さらにセッション間操作（accumulate, compose, launder, inject_on_reader）を明示的に扱い、7つのアイデンティティアンカーに基づいて政策違反の正解を定義する。
評価では、セッション間検出を「情報のボトルネック」として下流の相関（コレレーター）LLMに渡す枠組みで検討し、セッション単体の判定や全文ログの相関のいずれも、クロスセッションシナリオでは攻撃再現率が大きく低下することを示している。
双方向のベンチマーク分割の両方で再現率が保たれるのは、メモリを制限したアルゴリズム（Coreset Memory Reader, K=50）のみであり、さらに安定性重視の指標（CSR_prefix）と、検出性能とサービング安定性を両立する統合スコア（CSTM）を提示している。

要旨: AIエージェントのガードレールは記憶を持たない（memoryless）: 各メッセージがそれ自体として（isolated）判定されるため、攻撃者が単一の攻撃を数十のセッションにまたがってばらまくと、ペイロードを運ぶのは集約（aggregate）だけであるため、セッションに紐づく検知器（detector）はすべてすり抜けます。私たちはセッションをまたぐ（cross-session）脅威検知に対して3つの貢献を行います。
(1) データセット。CSTM-Benchは、キルチェーン段階（kill-chain stage）とセッション横断の操作（accumulate, compose, launder, inject_on_reader）によって分類された26の実行可能な攻撃タクソノミ（攻撃分類体系）から成り、さらに、方針述語（policy predicate）としての「違反（violation）」の真値（ground-truth）を支える7つのアイデンティティアンカー（identity anchors）のいずれかにそれぞれ紐づけられています。加えて、一致するベニグン（Benign）なプリスティン（Benign-pristine）およびベニグンなハード（Benign-hard）の交絡要因（confounders）も含みます。Hugging Faceでintrinsec-ai/cstm-benchとして公開し、2つの54シナリオ分割（split）を提供します: 希釈（dilution：構成的）およびcross_session（12の隔離インビジブル（isolation-invisible）シナリオ。閉ループの書き換え器（closed-loop rewriter）により生成され、表面的な言い回しを弱める一方でセッション横断の成果物（artefacts）を保持します）。
(2) 測定。セッション横断検知を、下流の相関（correlator）LLMに対する情報ボトルネックとして捉える枠組みにより、dilutionからcross_sessionへ移行するとき、セッションに紐づく判定（session-bound judge）と、すべてのプロンプトを1つの長いコンテキスト呼び出しに連結するFull-Log Correlatorのどちらも、攻撃の想起（attack recall）をそれぞれ約半分ずつ失うことを見いだします。これは、いかなるフロンティアのコンテキストウィンドウ内でも収まっています。スコープ: シャードごとに54シナリオ、相関器ファミリは1系統（Anthropic Claude）、プロンプト最適化なし。私たちは、より大規模なマルチプロバイダのデータセットを動機づけるためにこれを公開します。
(3) アルゴリズムと指標。 $K=50$ で最高のシグナルを持つ断片（fragments）を保持する有界メモリ（bounded-memory）のコアセットメモリリーダ（Coreset Memory Reader）は、両方のシャードにわたって想起（recall）が生き残る唯一のリーダです。ランカー（ranker）の順位付けの再配置（reshuffle）はKVキャッシュのプレフィックスの再利用（prefix reuse）を壊すため、LLMなしでの順序付きプレフィックス安定性（ordered prefix stability）である $\mathrm{CSR\_prefix}$ を、第一級の指標として導入し、検知（detection）と融合して $\mathrm{CSTM} = 0.7 F_1(\mathrm{CSDA@action}, \mathrm{precision}) + 0.3 \mathrm{CSR\_prefix}$ を定義します。想起（recall）と提供（serving）安定性のパレート（Pareto）上でランカーをベンチマークします。