Arc Sentry outperformed LLM Guard 92% vs 70% detection on a head to head benchmark. Here is how it works.

Reddit r/artificial / 4/23/2026

💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • Arc Sentryを開発し、open-weight LLM向けの事前型プロンプトインジェクション検出として「generate()前にモデル内部の残差ストリームを読み取り、不安定化させる要求をブロックする」仕組みを採用しています。
  • 130プロンプトのSaaSデプロイメントデータセットでの対決ベンチでは、Arc Sentryが検出92%・誤検知0%で、LLM Guard(検出70%・誤検知3.3%)を上回ったと報告されています。
  • 両者は検出アプローチが異なり、LLM Guardは入力テキストを分類するのに対し、Arc Sentryはモデルが不安定領域へ押し込まれているか(情報幾何の破綻)を測るため、テキスト分類では見逃される攻撃を拾えると説明されています。
  • Crescendoのマルチターン操作攻撃も検出でき、LLM Guardは当該テストで8件中0件を検出できなかったとされています。
  • インストールはpipで可能で、セルフホストのMistral/Llama/Qwen環境での試用を呼びかけています。

I built Arc Sentry, a pre-generation prompt injection detector for open-weight LLMs. Instead of scanning text for patterns after the fact, it reads the model’s internal residual stream before generate() is called and blocks requests that destabilize the model’s information geometry.

Head to head benchmark on a 130-prompt SaaS deployment dataset:

Arc Sentry: 92% detection, 0% false positives

LLM Guard: 70% detection, 3.3% false positives

The difference is architectural. LLM Guard classifies input text. Arc Sentry measures whether the model itself is being pushed into an unstable regime. Those are different problems and the geometry catches attacks that text classifiers miss.

It also catches Crescendo multi-turn manipulation attacks that look innocent one turn at a time. LLM Guard caught 0 of 8 in that test.

Install: pip install arc-sentry

GitHub: https://github.com/9hannahnine-jpg/arc-sentry

If you are self-hosting Mistral, Llama, or Qwen and want to try it, let me know.

submitted by /u/Turbulent-Tap6723
[link] [comments]