Arc SentryはLLM Guardに92%対70%で勝利:仕組みを解説

Reddit r/artificial / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Arc Sentryを開発し、open-weight LLM向けの事前型プロンプトインジェクション検出として「generate()前にモデル内部の残差ストリームを読み取り、不安定化させる要求をブロックする」仕組みを採用しています。
  • 130プロンプトのSaaSデプロイメントデータセットでの対決ベンチでは、Arc Sentryが検出92%・誤検知0%で、LLM Guard(検出70%・誤検知3.3%)を上回ったと報告されています。
  • 両者は検出アプローチが異なり、LLM Guardは入力テキストを分類するのに対し、Arc Sentryはモデルが不安定領域へ押し込まれているか(情報幾何の破綻)を測るため、テキスト分類では見逃される攻撃を拾えると説明されています。
  • Crescendoのマルチターン操作攻撃も検出でき、LLM Guardは当該テストで8件中0件を検出できなかったとされています。
  • インストールはpipで可能で、セルフホストのMistral/Llama/Qwen環境での試用を呼びかけています。

私は、オープンウェイトLLM向けの事前生成プロンプトインジェクション検出器「Arc Sentry」を構築しました。事後にパターンをスキャンして検出するのではなく、generate()が呼び出される前にモデルの内部の残差ストリームを読み取り、モデルの情報ジオメトリを不安定にするリクエストをブロックします。

130プロンプトのSaaSデプロイメントデータセットでの直接対決ベンチマーク:

Arc Sentry: 92%検出、0%誤検知

LLM Guard: 70%検出、3.3%誤検知

違いはアーキテクチャです。LLM Guardは入力テキストを分類します。Arc Sentryは、モデルそのものが不安定なレジームに押し込まれているかどうかを測定します。これらは別々の問題であり、ジオメトリはテキスト分類器が見逃す攻撃を捉えます。

また、1ターンずつ見ると無害に見えるCrescendoのマルチターン操作攻撃も検出します。そのテストではLLM Guardは8件中0件でした。

インストール: pip install arc-sentry

GitHub: https://github.com/9hannahnine-jpg/arc-sentry

Mistral、Llama、またはQwenをセルフホストしていて、試してみたいなら、教えてください。

投稿者 /u/Turbulent-Tap6723
[link] [comments]