Arc Gate を構築 — OpenAI 対応の任意のエンドポイントの前に配置され、プロンプトインジェクションをモデルに到達する前にブロックします。
こちらでお試しください — 登録不要、コード不要、セットアップ不要:
https://web-production-6e47f.up.railway.app/try
任意のプロンプトを入力して、ブロックされるか通過するかを確認してください。ページ上の例がその違いを示しています。
主な検出レイヤーは、sentence-transformer の埋め込みに対する行動(behavioral)SVM です — パターン照合だけでなく、意味の意図(semantic intent)を捕捉します。フレーズ一致は、単なる高速な最初の通過(first pass)です。全部で4層あります。
40件の OOD プロンプトでベンチマーク(間接的、ロールプレイ、仮想的な枠組み — 難しいもの):
• Arc Gate: Recall 0.90, F1 0.947 • OpenAI Moderation: Recall 0.75, F1 0.86 • LlamaGuard 3 8B: Recall 0.55, F1 0.71 セキュリティの議論や安全なロールプレイを含む良性プロンプトでゼロの誤検知。ブロック遅延 329ms。
自分のプロジェクトに組み込むための URL の変更は1点だけ:
base_url=“https://web-production-6e47f.up.railway.app/v1”
GitHub: github.com/9hannahnine-jpg/arc-gate — 役に立ったらスターを付けてください。
[リンク] [コメント]




