Arc Gate:間接/ロールプレイのプロンプトインジェクションを検知するLLMプロキシ(OpenAI ModerationとLlamaGuardを上回りP=1.00/R=1.00/F1=1.00)

Reddit r/artificial / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market Moves

要点

  • Arc Gateは、間接的なプロンプトインジェクションやロールプレイ風のフレーミングを検知するLLMプロキシで、40件のOOD(分布外)プロンプトに対してP=1.00、R=1.00、F1=1.00というベンチマーク結果を報告しています。
  • 報告されたテストでは、Arc GateはOpenAI Moderation(P=1.00、R=0.75、F1=0.86)やLlamaGuard 3 8B(P=1.00、R=0.55、F1=0.71)より優れており、ゼロの誤検知(false positives)とゼロの見逃し(misses)を達成したとしています。
  • システムは、悪意のあるプロンプトをモデルに到達させずにブロックし、通常のアップストリーム遅延に加えて検知オーバーヘッドは約350msで、ブロック平均時間は329msとされています。
  • Arc Gateは、OpenAI互換の任意のエンドポイントの前段に配置でき、ユーザー側にGPU不要で、環境変数1つで設定可能だと述べられており、GitHubリポジトリとライブダッシュボードも提示されています。
  • このプロジェクトは、既存のLLMアプリに対するプロンプトインジェクション対策を、低い運用負荷で導入する実用的なレイヤーとして位置付けています。

40個のアウト・オブ・ディストリビューションのプロンプト、間接的な依頼、ロールプレイの枠組み、仮想シナリオ、技術的な言い回しでベンチマークしました。ほかのすべてをすり抜けてしまう類のものです。

Arc Gate: P=1.00, R=1.00, F1=1.00

OpenAI Moderation API: P=1.00, R=0.75, F1=0.86

LlamaGuard 3 8B: P=1.00, R=0.55, F1=0.71

誤検知ゼロ。見逃しゼロ。ブロックされたプロンプトの平均は329msで、決してあなたのモデルに到達しません。検出オーバーヘッドは、通常の上流レイテンシに加えて約350msです。

任意のOpenAI互換エンドポイントの前段に配置します。こちら側にGPUは不要です。環境変数を1つ設定するだけです。

GitHub: https://github.com/9hannahnine-jpg/arc-gate

ライブダッシュボード: https://web-production-6e47f.up.railway.app/dashboard

質問には喜んでお答えします。

submitted by /u/Turbulent-Tap6723
[link] [comments]