私は、オープンウェイトLLM向けの事前生成プロンプトインジェクション検出器「Arc Sentry」を構築しました。事後にパターンをスキャンして検出するのではなく、generate()が呼び出される前にモデルの内部の残差ストリームを読み取り、モデルの情報ジオメトリを不安定にするリクエストをブロックします。
130プロンプトのSaaSデプロイメントデータセットでの直接対決ベンチマーク:
Arc Sentry: 92%検出、0%誤検知
LLM Guard: 70%検出、3.3%誤検知
違いはアーキテクチャです。LLM Guardは入力テキストを分類します。Arc Sentryは、モデルそのものが不安定なレジームに押し込まれているかどうかを測定します。これらは別々の問題であり、ジオメトリはテキスト分類器が見逃す攻撃を捉えます。
また、1ターンずつ見ると無害に見えるCrescendoのマルチターン操作攻撃も検出します。そのテストではLLM Guardは8件中0件でした。
インストール: pip install arc-sentry
GitHub: https://github.com/9hannahnine-jpg/arc-sentry
Mistral、Llama、またはQwenをセルフホストしていて、試してみたいなら、教えてください。
[link] [comments]




