OpenAIのモデレーションとLlamaGuardを上回るプロンプトインジェクション・プロキシを作った：攻撃をライブで遮断

Reddit r/artificial / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Arc Gateは、OpenAI互換エンドポイントの前段に挿し込むプロキシ層で、プロンプトインジェクション攻撃をモデルに届く前に遮断します。
システムは多層の検知アプローチを採用しており、文埋め込み（sentence-transformer）上で動く行動ベースのSVMなどを使って、単なるフレーズ一致以上の“意味上の意図”を捉えることを狙っています。
難易度の高いアウト・オブ・ディストリビューションのプロンプト40件でベンチマークした結果、Arc GateはOpenAI ModerationおよびLlamaGuard 3 8Bより高い再現率とF1スコアを示したと報告されています。
安全なロールプレイやセキュリティ議論を含む良性プロンプトで誤検知ゼロを主張しており、平均の遮断レイテンシは329msです。
公開URLで即試せるほか、base_urlの1箇所の変更で自分のプロジェクトに統合でき、コードはGitHubで公開されています。

Arc Gate を構築 — OpenAI 対応の任意のエンドポイントの前に配置され、プロンプトインジェクションをモデルに到達する前にブロックします。

こちらでお試しください — 登録不要、コード不要、セットアップ不要:

https://web-production-6e47f.up.railway.app/try

任意のプロンプトを入力して、ブロックされるか通過するかを確認してください。ページ上の例がその違いを示しています。

主な検出レイヤーは、sentence-transformer の埋め込みに対する行動（behavioral）SVM です — パターン照合だけでなく、意味の意図（semantic intent）を捕捉します。フレーズ一致は、単なる高速な最初の通過（first pass）です。全部で4層あります。

40件の OOD プロンプトでベンチマーク（間接的、ロールプレイ、仮想的な枠組み — 難しいもの）:

• Arc Gate: Recall 0.90, F1 0.947 • OpenAI Moderation: Recall 0.75, F1 0.86 • LlamaGuard 3 8B: Recall 0.55, F1 0.71

セキュリティの議論や安全なロールプレイを含む良性プロンプトでゼロの誤検知。ブロック遅延 329ms。

自分のプロジェクトに組み込むための URL の変更は1点だけ：

base_url=“https://web-production-6e47f.up.railway.app/v1”

GitHub: github.com/9hannahnine-jpg/arc-gate — 役に立ったらスターを付けてください。

により投稿 /u/Turbulent-Tap6723
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/30Dailyインサイトを見る →

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

日経XTECH

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

OpenAIのモデレーションとLlamaGuardを上回るプロンプトインジェクション・プロキシを作った：攻撃をライブで遮断

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々データセンター省電力化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

光電融合の業界地図、AI需要で「バブルの様相」 日本は光源に強み

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

光電融合、新プレーヤー・新技術が続々データセンター省電力化