OpenAIのモデレーションとLlamaGuardを上回るプロンプトインジェクション・プロキシを作った:攻撃をライブで遮断

Reddit r/artificial / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Arc Gateは、OpenAI互換エンドポイントの前段に挿し込むプロキシ層で、プロンプトインジェクション攻撃をモデルに届く前に遮断します。
  • システムは多層の検知アプローチを採用しており、文埋め込み(sentence-transformer)上で動く行動ベースのSVMなどを使って、単なるフレーズ一致以上の“意味上の意図”を捉えることを狙っています。
  • 難易度の高いアウト・オブ・ディストリビューションのプロンプト40件でベンチマークした結果、Arc GateはOpenAI ModerationおよびLlamaGuard 3 8Bより高い再現率とF1スコアを示したと報告されています。
  • 安全なロールプレイやセキュリティ議論を含む良性プロンプトで誤検知ゼロを主張しており、平均の遮断レイテンシは329msです。
  • 公開URLで即試せるほか、base_urlの1箇所の変更で自分のプロジェクトに統合でき、コードはGitHubで公開されています。

Arc Gate を構築 — OpenAI 対応の任意のエンドポイントの前に配置され、プロンプトインジェクションをモデルに到達する前にブロックします。

こちらでお試しください — 登録不要、コード不要、セットアップ不要:

https://web-production-6e47f.up.railway.app/try

任意のプロンプトを入力して、ブロックされるか通過するかを確認してください。ページ上の例がその違いを示しています。

主な検出レイヤーは、sentence-transformer の埋め込みに対する行動(behavioral)SVM です — パターン照合だけでなく、意味の意図(semantic intent)を捕捉します。フレーズ一致は、単なる高速な最初の通過(first pass)です。全部で4層あります。

40件の OOD プロンプトでベンチマーク(間接的、ロールプレイ、仮想的な枠組み — 難しいもの):

• Arc Gate: Recall 0.90, F1 0.947 • OpenAI Moderation: Recall 0.75, F1 0.86 • LlamaGuard 3 8B: Recall 0.55, F1 0.71 

セキュリティの議論や安全なロールプレイを含む良性プロンプトでゼロの誤検知。ブロック遅延 329ms。

自分のプロジェクトに組み込むための URL の変更は1点だけ:

base_url=“https://web-production-6e47f.up.railway.app/v1”

GitHub: github.com/9hannahnine-jpg/arc-gate — 役に立ったらスターを付けてください。

により投稿 /u/Turbulent-Tap6723
[リンク] [コメント]