Arc Gate：間接/ロールプレイのプロンプトインジェクションを検知するLLMプロキシ（OpenAI ModerationとLlamaGuardを上回りP=1.00/R=1.00/F1=1.00）

Reddit r/artificial / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageIndustry & Market Moves

共有:

要点

Arc Gateは、間接的なプロンプトインジェクションやロールプレイ風のフレーミングを検知するLLMプロキシで、40件のOOD（分布外）プロンプトに対してP=1.00、R=1.00、F1=1.00というベンチマーク結果を報告しています。
報告されたテストでは、Arc GateはOpenAI Moderation（P=1.00、R=0.75、F1=0.86）やLlamaGuard 3 8B（P=1.00、R=0.55、F1=0.71）より優れており、ゼロの誤検知（false positives）とゼロの見逃し（misses）を達成したとしています。
システムは、悪意のあるプロンプトをモデルに到達させずにブロックし、通常のアップストリーム遅延に加えて検知オーバーヘッドは約350msで、ブロック平均時間は329msとされています。
Arc Gateは、OpenAI互換の任意のエンドポイントの前段に配置でき、ユーザー側にGPU不要で、環境変数1つで設定可能だと述べられており、GitHubリポジトリとライブダッシュボードも提示されています。
このプロジェクトは、既存のLLMアプリに対するプロンプトインジェクション対策を、低い運用負荷で導入する実用的なレイヤーとして位置付けています。

40個のアウト・オブ・ディストリビューションのプロンプト、間接的な依頼、ロールプレイの枠組み、仮想シナリオ、技術的な言い回しでベンチマークしました。ほかのすべてをすり抜けてしまう類のものです。

Arc Gate: P=1.00, R=1.00, F1=1.00

OpenAI Moderation API: P=1.00, R=0.75, F1=0.86

LlamaGuard 3 8B: P=1.00, R=0.55, F1=0.71

誤検知ゼロ。見逃しゼロ。ブロックされたプロンプトの平均は329msで、決してあなたのモデルに到達しません。検出オーバーヘッドは、通常の上流レイテンシに加えて約350msです。

任意のOpenAI互換エンドポイントの前段に配置します。こちら側にGPUは不要です。環境変数を1つ設定するだけです。

質問には喜んでお答えします。