AIエージェントのセキュリティ用ガードレールに関する比較評価
arXiv cs.AI / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本レポートでは、DKnownAI GuardをAWS Bedrock Guardrails、Azure Content Safety、Lakera Guardと比較し、AIエージェントのセキュリティに関するリスク対策として評価します。
- 人手による注釈を真値(グラウンドトゥルース)として用い、ガードレールの性能を「エージェント自体への脅威(指示の上書き、間接インジェクション、ツール悪用など)」と「有害コンテンツを引き出す意図のある依頼(ヘイトスピーチ、ポルノ、暴力など)」の2種類で検証します。
- 結果としてDKnownAI Guardは再現率(recall)が96.5%で最も高く、関連するリスクを見逃しにくいことが示されています。
- さらに真の否定率(TNR)が90.4%でトップとなり、競合に比べて誤警報が少ないことを示唆します。
- 論文は、DKnownAI Guardが評価したガードレールの中で総合的に最良のパフォーマンスを示したと結論づけています。

