LlamaGuard 3を間接/役割演技（ロールプレイ）攻撃で上回るプロンプトインジェクション検出器を開発

Reddit r/artificial / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事では、Mistral、Llama、Qwenなどの自己ホスト型LLM向けに作られたホワイトボックスのプロンプトインジェクション検出器「Arc Sentry」が紹介されています。
Arc Sentryは、既知のキーワードやフレーズのパターンマッチではなく、プロンプトがモデルの内部表現に与える変化を評価することで、間接・仮想・ロールプレイ形式の攻撃を検出します。
間接/ロールプレイ/技術系のアウト・オブ・ディストリビューションな40件のプロンプトを用いたベンチマークで、Arc Sentryはリコール0.80、F1 0.84を報告し、OpenAI Moderation API（リコール0.75、F1 0.86）やLlamaGuard 3 8B（リコール0.55、F1 0.71）より難しいケースをより多く捉えられると述べています。
model.generate()が呼ばれる前にブロックし、モデルへのアクセス不要の軽量CPUプリフィルタとして動作します。
導入手順（pip install arc-sentry）とGitHubリンクが提示され、手法についての質問も歓迎されています。

自部署で運用するLLM（Mistral、Llama、Qwen）向けのホワイトボックス・プロンプトインジェクション検出器「Arc Sentry」に取り組んでいました。

多くの検出器は既知の攻撃フレーズにパターンマッチします。Arc Sentryは、代わりに、プロンプトがモデルの内部表現に対して行うことを監視するため、キーワードフィルタをすり抜ける間接的・仮想的・ロールプレイ形式の攻撃も検知できます。

間接/ロールプレイ/技術的プロンプトでベンチマーク（40のOODプロンプト）：

• Arc Sentry: 再現率 0.80、F1 0.84 • OpenAI Moderation API: 再現率 0.75、F1 0.86 • LlamaGuard 3 8B: 再現率 0.55、F1 0.71

Arc Sentryは再現率が最も高く、難しいケースをより多く検知します。

model.generate()が呼び出される前にブロックします。軽量なプリフィルタは、モデルアクセスなしでCPU上で動作します。

pip install arc-sentry

GitHub: https://github.com/9hannahnine-jpg/arc-sentry

仕組みについての質問には喜んで答えます。

投稿者 /u/Turbulent-Tap6723
[リンク] [コメント]

Black Hat USA

AI Business

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

note

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

note

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

note

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

note

LlamaGuard 3を間接/役割演技（ロールプレイ）攻撃で上回るプロンプトインジェクション検出器を開発

要点

関連記事

Black Hat USA

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136