要旨: 我々は、警報のオウム返し(alert parroting)と本物のフォレンジック調査(forensic investigation)を区別する、自律的なセキュリティインシデント対応エージェントを評価するためのベンチマークであるSIR-Benchを提示する。専門家によって検証された正解(ground truth)を伴う129件の匿名化インシデントパターンから導出されたSIR-Benchは、エージェントが正しいトリアージ(triage)判断に到達できるかどうかだけでなく、能動的な調査によって新規の証拠を発見できるかどうかを測定する。SIR-Benchを構築するために、我々はOnce Upon A Threat(OUAT)というフレームワークを開発し、制御されたクラウド環境で実際のインシデントパターンをリプレイ(再生)することで、調査の成果を測定可能な形で反映する真正なテレメトリを生成する。我々の評価手法では、相補的な3つの指標を導入する:トリアージ精度(M1)、新規発見の検出(M2)、ツール利用の適切性(M3)。これらは、立証責任を反転させる敵対的なLLM-as-Judge(LLMを裁定者として用いる手法)によって評価される。すなわち、調査に信用を与えるには具体的なフォレンジック証拠が必要となる。我々がこのベンチマーク上でSIRエージェントを評価した結果、97.1%の真陽性(TP)検出、73.4%の偽陽性(FP)拒否、そしてケースあたり5.67件の新規の鍵となる発見(novel key findings)を示し、今後の調査エージェントを測定するための基準値(ベースライン)を確立する。
SIR-Bench:セキュリティインシデント対応エージェントにおける調査の深さを評価する
arXiv cs.AI / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単なるアラートの繰り返しではなく、トリアージの正確さと調査の深さの両方を評価するためのベンチマーク「SIR-Bench」を提案する。テストケースは794件で、自律型セキュリティインシデント対応エージェントを対象とする。
- SIR-Benchは129件の匿名化されたインシデントパターンから構築され、専門家によって検証されたグラウンドトゥルースを用いて、「本物のフォレンジック調査」と「アラートの鸚鵡返し(alert parroting)」を区別する。
- 現実的で測定可能な評価シナリオを生成するため、著者らは「Once Upon A Threat(OUAT)」を開発する。OUATは、制御されたクラウド環境内でインシデントパターンを再生(リプレイ)し、真正なテレメトリを生成する。
- 評価では3つの相補的な指標—トリアージ精度(M1)、新規な証拠発見(M2)、ツール使用の適切性(M3)—を用い、さらに敵対的なLLMを「裁定者(LLM-as-Judge)」として起用する。これにより、調査を評価して得点を付与するには具体的なフォレンジック証拠が必要となる。
- 報告された結果では、テストされたSIRエージェントが、真陽性検出97.1%、偽陽性の拒否73.4%を達成し、ケースあたりの平均で5.67件の新規なキー発見が得られた。これは今後のエージェントに向けたベースラインを確立するものである。




