マルチエージェントAIシステムのセキュリティ運用能力を評価するベンチマーク構築のための設計原則

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現行のマルチエージェント・レッドチーム用ベンチマークでは、より自律的なSOCを支援するAIエージェントの能力を測定できないと主張している。理由は、実際のSOC業務は主としてブルーチーム指向であるためである。
マルチエージェントAIの協調的なマルチタスク・ブルーチーム評価のための体系的ベンチマークは提案されていないと述べ、そのため新たなベンチマーク構築の必要性を動機づけている。
著者らは、単一タスク評価ではなくブルーチームの能力に焦点を当てたベンチマーク「SOC-bench」を構築するための設計原則を提案している。
SOC-benchは、大規模なランサムウェアのインシデント対応を中心とする5つのタスクのファミリーとして提示され、協調したブルーチームのマルチエージェント性能を評価することを目指している。
本研究は、完成した評価システムの報告ではなく、概念的なベンチマーク設計を提示し、将来のベンチマーク実装および研究のための枠組みとして位置づけている。

要旨: 大規模言語モデル（LLM）およびマルチエージェントAIシステムが、サイバーセキュリティ運用においてますます大きな可能性を示していることから、AIおよびサイバーセキュリティ分野のコミュニティに属する組織、政策立案者、モデル提供者、研究者は、そのようなAIシステムが、より自律的なSOC（セキュリティ運用センター）を実現し、人手作業を削減するためにどの程度の能力を発揮できるのかを定量化することに関心を持っています。とりわけ、AIおよびサイバーセキュリティ分野のコミュニティでは、最近、マルチエージェントAIシステムのレッドチーム能力を評価するためのいくつかのベンチマークが開発されてきました。しかし、SOCにおける運用はブルーチームの活動が支配的であるため、ブルーチームの運用に焦点を当てたベンチマークがない限り、より自律的なSOCを実現するAIシステム／エージェントの能力は評価できません。筆者らの把握する限り、協調的なマルチタスクのブルーチームAIを評価するための体系的なベンチマークは、文献上提案されていません。既存のブルーチームベンチマークは、特定のタスクに焦点を当てています。本研究の目的は、SOC-benchと呼ばれる、AIのブルーチーム能力を評価するためのベンチマークを構築するための設計原則の集合を開発することです。これらの設計原則に従って、筆者らはSOC-benchの概念設計を開発しました。この概念設計は、大規模なランサムウェア攻撃のインシデント対応という文脈において、5つのブルーチームタスクのファミリーで構成されています。