SIR-Bench：セキュリティインシデント対応エージェントにおける調査の深さを評価する

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単なるアラートの繰り返しではなく、トリアージの正確さと調査の深さの両方を評価するためのベンチマーク「SIR-Bench」を提案する。テストケースは794件で、自律型セキュリティインシデント対応エージェントを対象とする。
SIR-Benchは129件の匿名化されたインシデントパターンから構築され、専門家によって検証されたグラウンドトゥルースを用いて、「本物のフォレンジック調査」と「アラートの鸚鵡返し（alert parroting）」を区別する。
現実的で測定可能な評価シナリオを生成するため、著者らは「Once Upon A Threat（OUAT）」を開発する。OUATは、制御されたクラウド環境内でインシデントパターンを再生（リプレイ）し、真正なテレメトリを生成する。
評価では3つの相補的な指標—トリアージ精度（M1）、新規な証拠発見（M2）、ツール使用の適切性（M3）—を用い、さらに敵対的なLLMを「裁定者（LLM-as-Judge）」として起用する。これにより、調査を評価して得点を付与するには具体的なフォレンジック証拠が必要となる。
報告された結果では、テストされたSIRエージェントが、真陽性検出97.1%、偽陽性の拒否73.4%を達成し、ケースあたりの平均で5.67件の新規なキー発見が得られた。これは今後のエージェントに向けたベースラインを確立するものである。

要旨: 我々は、警報のオウム返し（alert parroting）と本物のフォレンジック調査（forensic investigation）を区別する、自律的なセキュリティインシデント対応エージェントを評価するためのベンチマークであるSIR-Benchを提示する。専門家によって検証された正解（ground truth）を伴う129件の匿名化インシデントパターンから導出されたSIR-Benchは、エージェントが正しいトリアージ（triage）判断に到達できるかどうかだけでなく、能動的な調査によって新規の証拠を発見できるかどうかを測定する。SIR-Benchを構築するために、我々はOnce Upon A Threat（OUAT）というフレームワークを開発し、制御されたクラウド環境で実際のインシデントパターンをリプレイ（再生）することで、調査の成果を測定可能な形で反映する真正なテレメトリを生成する。我々の評価手法では、相補的な3つの指標を導入する：トリアージ精度（M1）、新規発見の検出（M2）、ツール利用の適切性（M3）。これらは、立証責任を反転させる敵対的なLLM-as-Judge（LLMを裁定者として用いる手法）によって評価される。すなわち、調査に信用を与えるには具体的なフォレンジック証拠が必要となる。我々がこのベンチマーク上でSIRエージェントを評価した結果、97.1%の真陽性（TP）検出、73.4%の偽陽性（FP）拒否、そしてケースあたり5.67件の新規の鍵となる発見（novel key findings）を示し、今後の調査エージェントを測定するための基準値（ベースライン）を確立する。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/15Dailyインサイトを見る →

Black Hat Asia

AI Business

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

SIR-Bench：セキュリティインシデント対応エージェントにおける調査の深さを評価する

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵