AIエージェントのセキュリティ用ガードレールに関する比較評価

arXiv cs.AI / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本レポートでは、DKnownAI GuardをAWS Bedrock Guardrails、Azure Content Safety、Lakera Guardと比較し、AIエージェントのセキュリティに関するリスク対策として評価します。
人手による注釈を真値（グラウンドトゥルース）として用い、ガードレールの性能を「エージェント自体への脅威（指示の上書き、間接インジェクション、ツール悪用など）」と「有害コンテンツを引き出す意図のある依頼（ヘイトスピーチ、ポルノ、暴力など）」の2種類で検証します。
結果としてDKnownAI Guardは再現率（recall）が96.5%で最も高く、関連するリスクを見逃しにくいことが示されています。
さらに真の否定率（TNR）が90.4%でトップとなり、競合に比べて誤警報が少ないことを示唆します。
論文は、DKnownAI Guardが評価したガードレールの中で総合的に最良のパフォーマンスを示したと結論づけています。

Abstract

本報告書では、AIエージェントのセキュリティシナリオにおけるDKnownAI Guardの比較評価を提示し、これを3つの競合製品であるAWS Bedrock Guardrails、Azure Content Safety、Lakera Guardとベンチマークします。グラウンドトゥルースとして人手による注釈を用い、各ガードレールが2種類のリスクを検出する能力を評価します。すなわち、エージェント自体への脅威（例：指示の上書き、間接的インジェクション、ツールの悪用）と、有害なコンテンツを引き出すことを意図したリクエスト（例：ヘイトスピーチ、ポルノ、暴力）です。評価結果から、DKnownAI Guardは最も高いリコール率96.5\%を達成し、真の否定率（TNR）では90.4\%で1位にランクインすることが示されました。これにより、評価対象となったすべてのガードレールの中で最も優れた総合パフォーマンスを提供します。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

「血液型でAIに治験させたい」→ 調べたらコンピュータだけで新薬を作る世界があった

Qiita

HBM3Eで9.2TB/s、異種材料集積を解剖する

Qiita

Claude Sonnet 4.5超えのフランス製AIモデル「Mistral Medium 3.5」がオープンモデルとして公開される＆Mistral Vibeがクラウド対応

GIGAZINE

OpenAIは「ゴブリンやアライグマについて話すな」とAIコーディングツールのCodexに指示している

GIGAZINE

AIエージェントのセキュリティ用ガードレールに関する比較評価

要点

Abstract

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

「血液型でAIに治験させたい」→ 調べたらコンピュータだけで新薬を作る世界があった

HBM3Eで9.2TB/s、異種材料集積を解剖する

Claude Sonnet 4.5超えのフランス製AIモデル「Mistral Medium 3.5」がオープンモデルとして公開される＆Mistral Vibeがクラウド対応

OpenAIは「ゴブリンやアライグマについて話すな」とAIコーディングツールのCodexに指示している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer