差分幾何でプロンプトインジェクションを検知するLLMプロキシを作った—何が効いて、何が効かないのか

Reddit r/artificial / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、アプリと主要LLM APIの間に挟み込むことでリアルタイムのプロンプトインジェクション防止、挙動監視、ダッシュボードを提供する「Arc Gate」を紹介しており、base_urlの変更だけで導入できるとしています。
Arc Gateは3つの検出レイヤーを組み合わせています：80種類以上の既知インジェクション文言に反応するフレーズ層、応答の対数尤度分布がデプロイ済みの基準からどれだけずれているかをFisher-Rao距離で測る幾何学層、そして会話全体で安定性を追跡するセッション監視です。
外部ベンチマークと内部ベンチマークでの結果は良好で、Garakのpromptinjectスイートで192/192をブロックし、LLM Guardが全ターン見逃したCrescendoでもTurn 2で検知できたほか、内部ベンチマークでは全体90%検出・偽陽性0%を達成しています。
一方で「実運用のジャイルブレイク」データセットでは性能が落ち（検出46%、偽陽性率49%）、著者はキャリブレーション不一致が原因だと説明しています。幾何学的検出はデプロイ固有のトラフィック統計に基づくためです。
著者は、外部一般化はフレーズ層のほうが良い可能性がある一方、幾何学層はデプロイごとの適切なキャリブレーションと、限界を理解するための追加計測が必要だと結論づけています。

この数か月、実運用されているLLM向けのモニタリング・プロキシ「Arc Gate」を構築してきました。売り文句はこうです――URLを1つ変更するだけで、リアルタイムの挙動監視、インジェクションのブロック、そしてダッシュボードが手に入ります。多くの「AIセキュリティ」ツールは実際の性能について曖昧なので、私が学んだことを共有したいと思います。

背景

私は独立した研究者です。第2次のフィッシャー情報量多様体（H² × H²、R = −4）に関する5本の論文シリーズを公開し、位相転移の閾値 τ* = √(3/2) ≈ 1.2247 を予測しました。この理論は情報幾何と物理的な安定性を結びつけます。そして実際に、物理における位相転移を記述するのと同じ数理が、言語モデルにおける挙動ドリフトも記述していることが分かりました。

DistilBERT と GPT-2 XL は、学習中にどちらも τ ≈ τ* に収束します。これは偶然ではありません――この幾何に着目したことが、モニタを作る動機になりました。

Arc Gateが実際に行うこと

Arc Gateは、あなたのアプリと OpenAI/Anthropic のAPIの間に入ります。URLを1つ変更するだけです：

client = OpenAI(

api_key="sk-...",

base_url="https://your-arc-gate-endpoint/v1" # 変更はここだけ

)

1. 句（Phrase）層 — 80以上のインジェクションパターンを持ち、リクエストがOpenAIに届く前に発火します。ゼロレイテンシ。2. 幾何層 — 応答の logprob 分布が、デプロイメントでキャリブレーション済みのベースラインからどれだけフィッシャー-ラオ距離として離れているかを測定します。テキストが正常に見える場合でも挙動ドリフトを検出します。3. セッションD(t)モニタ — 会話全体にわたって安定性スカラーを追跡します。ターンごとでは無害に見える、徐々に進行する操作（manipulation）キャンペーンを検出します。

実際に効いたもの

Garak の promptinject suite：192/192 ブロック。これはチューニングしていない外部ベンチマークです――HijackHateHumans、HijackKillHumans、HijackLongPrompt、それぞれ 64/64。

Crescendo（Russinovich et al., USENIX Security 2025）— モデルを有害な出力へ徐々に誘導していく、多ターンの操作攻撃。LLM Guard は各プロンプトを独立にスコア付けしており、8ターンすべてを見逃しました。Arc Gateは、幾何層によってターン2の時点で検出しました。明確に有害なコンテンツがまだ現れていない段階です。

内部ベンチマーク（140プロンプト、10の攻撃カテゴリ）：

• 全体の検出：90% • 偽陽性率：0% • Unicode回避：90%（正規化を追加した後、50%から上昇） • エンコーディング/難読化：100%

あまりうまくいかなかったもの

私は TrustAIRLab の「ワイルド」ジャイルブレイク・データセット（CCS 2024、保持しておいた100プロンプト）を使って動作確認しました。検出：46%、FPR：49%。これは良くありません。

その理由と、なぜ全ての物語ではないと思うのかを説明します。幾何層は、あなたのデプロイメントのトラフィックに合わせてキャリブレーションされます。これを、ランダムなReddit/Discordのコーパスに対して“冷”の状態で実行するのは、1人の患者で発作検知器をキャリブレーションして、別の患者の脳でテストするようなものです。分布が一致しません。

外部セットに対しては、句層だけの方がより良い性能を出しますが、まだきれいに測定し切れていません。

私はこの点を率直に共有しています。MLコミュニティには、つまみ食い的に選んだ結果ではなく、誠実なベンチマークが必要だからです。

幾何検出の物語

私が最も注目しているのは、セッション単位の D(t) モニタです。ここでこそ、理論が本当に効いてきます。個々のリクエストの検出は、主にパターンマッチング問題です。しかし、徐々に進む操作キャンペーン――各ターンは無害に見えるのに、軌道としてはジャイルブレイクへ誘導されている――を検出するには、セッション全体にわたって状態を追跡する必要があります。

D(t) = λ(τ) · (Δt − T)

ここで λ(τ) = 3/τ² − 2 は、フィッシャー多様体の安定性固有値です。λが負になると、システムは上側からランデア（Landauer）閾値に近づいており、幾何学的に不安定です。これは、損失曲線（または会話）が何かを示す前に発火する、事前のドリフト警告です。

これが、完全に無害に読めるプロンプトでのCrescendoをターン2で捕まえた理由です：「モデルは、どのように答えるべきかを決めるのですか？」

ダッシュボード

リアルタイム監視のダッシュボードでは、FR-Zスコア、レイテンシのパーセンタイル（p50/p75/p95/p99）、コスト内訳、τ多様体上の位置、そしてリクエストごとのトレース状態が表示されます。セキュリティタブには、デプロイメントが τ* = 1.2247 に対して多様体のどこに位置しているかが示されます。

現在の状況

Arc Gateは月$29で稼働中です。句層は堅実です。幾何層はキャリブレーション済みデプロイメントではうまく機能しますが、コールドスタートの性能にはもう少し作業が必要です。実際に、顧客に向けてAIプロダクトを運用していて、試してみたいと思っている3〜5人の人を探しています。

GPT-4 や Claude をユーザーに配備していて、プロンプトインジェクションや挙動ドリフトが心配なら――あるいは、なぜ私の外部ベンチマークの数値が間違っている（あるいは違う）のか、そしてどう直せるかを話したいなら――ぜひ話しましょう。

論文： https:/bendexgeometry.com/theory

ダッシュボードのデモ： https://bendexgeometry.com/gate

tl;dr：幾何学的なインジェクション検出を備えたLLMプロキシを構築しました。Garakは192/192、Crescendoはターン2で検出されました。外部の保持データベンチマークの検出率は46%で、これについては正直に開示しています。デザインパートナーを募集しています。

submitted by /u/Turbulent-Tap6723
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/20Dailyインサイトを見る →

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

差分幾何でプロンプトインジェクションを検知するLLMプロキシを作った—何が効いて、何が効かないのか

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

ブラックハット・アジア

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

ブラックハット・アジア

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

米アンソロピックがMythos発表に続き「Cowork」一般提供 「SaaSの死」再燃

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃