自部署で運用するLLM(Mistral、Llama、Qwen)向けのホワイトボックス・プロンプトインジェクション検出器「Arc Sentry」に取り組んでいました。
多くの検出器は既知の攻撃フレーズにパターンマッチします。Arc Sentryは、代わりに、プロンプトがモデルの内部表現に対して行うことを監視するため、キーワードフィルタをすり抜ける間接的・仮想的・ロールプレイ形式の攻撃も検知できます。
間接/ロールプレイ/技術的プロンプトでベンチマーク(40のOODプロンプト):
• Arc Sentry: 再現率 0.80、F1 0.84 • OpenAI Moderation API: 再現率 0.75、F1 0.86 • LlamaGuard 3 8B: 再現率 0.55、F1 0.71 Arc Sentryは再現率が最も高く、難しいケースをより多く検知します。
model.generate()が呼び出される前にブロックします。軽量なプリフィルタは、モデルアクセスなしでCPU上で動作します。
pip install arc-sentry
GitHub: https://github.com/9hannahnine-jpg/arc-sentry
仕組みについての質問には喜んで答えます。
[リンク] [コメント]




