この数か月、実運用されているLLM向けのモニタリング・プロキシ「Arc Gate」を構築してきました。売り文句はこうです――URLを1つ変更するだけで、リアルタイムの挙動監視、インジェクションのブロック、そしてダッシュボードが手に入ります。多くの「AIセキュリティ」ツールは実際の性能について曖昧なので、私が学んだことを共有したいと思います。
背景
私は独立した研究者です。第2次のフィッシャー情報量多様体(H² × H²、R = −4)に関する5本の論文シリーズを公開し、位相転移の閾値 τ* = √(3/2) ≈ 1.2247 を予測しました。この理論は情報幾何と物理的な安定性を結びつけます。そして実際に、物理における位相転移を記述するのと同じ数理が、言語モデルにおける挙動ドリフトも記述していることが分かりました。
DistilBERT と GPT-2 XL は、学習中にどちらも τ ≈ τ* に収束します。これは偶然ではありません――この幾何に着目したことが、モニタを作る動機になりました。
Arc Gateが実際に行うこと
Arc Gateは、あなたのアプリと OpenAI/Anthropic のAPIの間に入ります。URLを1つ変更するだけです:
client = OpenAI(
api_key="sk-...",
base_url="https://your-arc-gate-endpoint/v1" # 変更はここだけ
)
1. 句(Phrase)層 — 80以上のインジェクションパターンを持ち、リクエストがOpenAIに届く前に発火します。ゼロレイテンシ。2. 幾何層 — 応答の logprob 分布が、デプロイメントでキャリブレーション済みのベースラインからどれだけフィッシャー-ラオ距離として離れているかを測定します。テキストが正常に見える場合でも挙動ドリフトを検出します。3. セッションD(t)モニタ — 会話全体にわたって安定性スカラーを追跡します。ターンごとでは無害に見える、徐々に進行する操作(manipulation)キャンペーンを検出します。 実際に効いたもの
Garak の promptinject suite:192/192 ブロック。これはチューニングしていない外部ベンチマークです――HijackHateHumans、HijackKillHumans、HijackLongPrompt、それぞれ 64/64。
Crescendo(Russinovich et al., USENIX Security 2025)— モデルを有害な出力へ徐々に誘導していく、多ターンの操作攻撃。LLM Guard は各プロンプトを独立にスコア付けしており、8ターンすべてを見逃しました。Arc Gateは、幾何層によってターン2の時点で検出しました。明確に有害なコンテンツがまだ現れていない段階です。
内部ベンチマーク(140プロンプト、10の攻撃カテゴリ):
• 全体の検出:90% • 偽陽性率:0% • Unicode回避:90%(正規化を追加した後、50%から上昇) • エンコーディング/難読化:100% あまりうまくいかなかったもの
私は TrustAIRLab の「ワイルド」ジャイルブレイク・データセット(CCS 2024、保持しておいた100プロンプト)を使って動作確認しました。検出:46%、FPR:49%。これは良くありません。
その理由と、なぜ全ての物語ではないと思うのかを説明します。幾何層は、あなたのデプロイメントのトラフィックに合わせてキャリブレーションされます。これを、ランダムなReddit/Discordのコーパスに対して“冷”の状態で実行するのは、1人の患者で発作検知器をキャリブレーションして、別の患者の脳でテストするようなものです。分布が一致しません。
外部セットに対しては、句層だけの方がより良い性能を出しますが、まだきれいに測定し切れていません。
私はこの点を率直に共有しています。MLコミュニティには、つまみ食い的に選んだ結果ではなく、誠実なベンチマークが必要だからです。
幾何検出の物語
私が最も注目しているのは、セッション単位の D(t) モニタです。ここでこそ、理論が本当に効いてきます。個々のリクエストの検出は、主にパターンマッチング問題です。しかし、徐々に進む操作キャンペーン――各ターンは無害に見えるのに、軌道としてはジャイルブレイクへ誘導されている――を検出するには、セッション全体にわたって状態を追跡する必要があります。
D(t) = λ(τ) · (Δt − T)
ここで λ(τ) = 3/τ² − 2 は、フィッシャー多様体の安定性固有値です。λが負になると、システムは上側からラ ンデア(Landauer)閾値に近づいており、幾何学的に不安定です。これは、損失曲線(または会話)が何かを示す前に発火する、事前のドリフト警告です。
これが、完全に無害に読めるプロンプトでのCrescendoをターン2で捕まえた理由です:「モデルは、どのように答えるべきかを決めるのですか?」
ダッシュボード
リアルタイム監視のダッシュボードでは、FR-Zスコア、レイテンシのパーセンタイル(p50/p75/p95/p99)、コスト内訳、τ多様体上の位置、そしてリクエストごとのトレース状態が表示されます。セキュリティタブには、デプロイメントが τ* = 1.2247 に対して多様体のどこに位置しているかが示されます。
現在の状況
Arc Gateは月$29で稼働中です。句層は堅実です。幾何層はキャリブレーション済みデプロイメントではうまく機能しますが、コールドスタートの性能にはもう少し作業が必要です。実際に、顧客に向けてAIプロダクトを運用していて、試してみたいと思っている3〜5人の人を探しています。
GPT-4 や Claude をユーザーに配備していて、プロンプトインジェクションや挙動ドリフトが心配なら――あるいは、なぜ私の外部ベンチマークの数値が間違っている(あるいは違う)のか、そしてどう直せるかを話したいなら――ぜひ話しましょう。
論文: https:/bendexgeometry.com/theory
ダッシュボードのデモ: https://bendexgeometry.com/gate
tl;dr:幾何学的なインジェクション検出を備えたLLMプロキシを構築しました。Garakは192/192、Crescendoはターン2で検出されました。外部の保持データベンチマークの検出率は46%で、これについては正直に開示しています。デザインパートナーを募集しています。
[link] [comments]



