エージェントはルートシェルを夢見るのか？CTF（Capture The Flag）課題におけるLLMエージェントの部分点評価

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、VMベースの現実的なCTF（Capture The Flag）セキュリティ課題に対してLLMエージェントを評価するためのオープンソース・ベンチマーク「DeepRed」を提案します。
DeepRedは、Kaliの攻撃者環境で端末ツールと任意のWeb検索を使うエージェントを動かし、プライベートネットワーク経由でターゲット課題に接続して、実行の完全なトレースを収集します。
解けた／解けないの二値だけでなく、公開されたWriteupから作る課題固有のチェックポイントに基づく部分点のスコアリング手法と、ログからチェックポイント達成を判定する自動「要約→ジャッジ」ラベリング手順を導入しています。
DeepRedを用いて商用で利用可能な10のLLMを10個のCTF課題でベンチマークした結果、エージェントの到達度はまだ限定的で、最良でも平均でチェックポイント達成率35%にとどまります。
課題タイプによって性能差があり、一般的な形式では強い一方で、非標準の発見や長期的な方針転換を要するタスクでは弱いことが示されます。

Dev.to

Dev.to

Dev.to

Dev.to

The Verge