AIエージェントのセキュリティ用ガードレールに関する比較評価

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本レポートでは、DKnownAI GuardをAWS Bedrock Guardrails、Azure Content Safety、Lakera Guardと比較し、AIエージェントのセキュリティに関するリスク対策として評価します。
  • 人手による注釈を真値(グラウンドトゥルース)として用い、ガードレールの性能を「エージェント自体への脅威(指示の上書き、間接インジェクション、ツール悪用など)」と「有害コンテンツを引き出す意図のある依頼(ヘイトスピーチ、ポルノ、暴力など)」の2種類で検証します。
  • 結果としてDKnownAI Guardは再現率(recall)が96.5%で最も高く、関連するリスクを見逃しにくいことが示されています。
  • さらに真の否定率(TNR)が90.4%でトップとなり、競合に比べて誤警報が少ないことを示唆します。
  • 論文は、DKnownAI Guardが評価したガードレールの中で総合的に最良のパフォーマンスを示したと結論づけています。

Abstract

本報告書では、AIエージェントのセキュリティシナリオにおけるDKnownAI Guardの比較評価を提示し、これを3つの競合製品であるAWS Bedrock Guardrails、Azure Content Safety、Lakera Guardとベンチマークします。グラウンドトゥルースとして人手による注釈を用い、各ガードレールが2種類のリスクを検出する能力を評価します。すなわち、エージェント自体への脅威(例:指示の上書き、間接的インジェクション、ツールの悪用)と、有害なコンテンツを引き出すことを意図したリクエスト(例:ヘイトスピーチ、ポルノ、暴力)です。評価結果から、DKnownAI Guardは最も高いリコール率96.5\%を達成し、真の否定率(TNR)では90.4\%で1位にランクインすることが示されました。これにより、評価対象となったすべてのガードレールの中で最も優れた総合パフォーマンスを提供します。