LlamaGuard 3を間接/役割演技(ロールプレイ)攻撃で上回るプロンプトインジェクション検出器を開発

Reddit r/artificial / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、Mistral、Llama、Qwenなどの自己ホスト型LLM向けに作られたホワイトボックスのプロンプトインジェクション検出器「Arc Sentry」が紹介されています。
  • Arc Sentryは、既知のキーワードやフレーズのパターンマッチではなく、プロンプトがモデルの内部表現に与える変化を評価することで、間接・仮想・ロールプレイ形式の攻撃を検出します。
  • 間接/ロールプレイ/技術系のアウト・オブ・ディストリビューションな40件のプロンプトを用いたベンチマークで、Arc Sentryはリコール0.80、F1 0.84を報告し、OpenAI Moderation API(リコール0.75、F1 0.86)やLlamaGuard 3 8B(リコール0.55、F1 0.71)より難しいケースをより多く捉えられると述べています。
  • model.generate()が呼ばれる前にブロックし、モデルへのアクセス不要の軽量CPUプリフィルタとして動作します。
  • 導入手順(pip install arc-sentry)とGitHubリンクが提示され、手法についての質問も歓迎されています。

自部署で運用するLLM(Mistral、Llama、Qwen)向けのホワイトボックス・プロンプトインジェクション検出器「Arc Sentry」に取り組んでいました。

多くの検出器は既知の攻撃フレーズにパターンマッチします。Arc Sentryは、代わりに、プロンプトがモデルの内部表現に対して行うことを監視するため、キーワードフィルタをすり抜ける間接的・仮想的・ロールプレイ形式の攻撃も検知できます。

間接/ロールプレイ/技術的プロンプトでベンチマーク(40のOODプロンプト):

• Arc Sentry: 再現率 0.80、F1 0.84 • OpenAI Moderation API: 再現率 0.75、F1 0.86 • LlamaGuard 3 8B: 再現率 0.55、F1 0.71 

Arc Sentryは再現率が最も高く、難しいケースをより多く検知します。

model.generate()が呼び出される前にブロックします。軽量なプリフィルタは、モデルアクセスなしでCPU上で動作します。

pip install arc-sentry

GitHub: https://github.com/9hannahnine-jpg/arc-sentry

仕組みについての質問には喜んで答えます。

投稿者 /u/Turbulent-Tap6723
[リンク] [コメント]