TwinGate:追跡不能な非対称トラフィック上での分解型脱獄に対する状態保持型防御と非対称コントラスト学習

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、匿名化され追跡不能で、かつインタリーブされた実運用トラフィック環境において、LLMへの分解型脱獄を検知するための状態保持型防御フレームワーク「TwinGate」を提案している。
  • TwinGateはデュアルエンコーダ構成と非対称コントラスト学習(ACL)を用い、意味的には異なるが意図が一致する悪意あるクエリ断片を共有潜在空間でクラスタリングしつつ、凍結した並列エンコーダで良性の話題重なりによる誤検知を抑える。
  • 配備効率を重視し、各リクエストは軽量なフォワード1回で処理でき、LLMのプリフィル段階と並列に動作するためレイテンシの上乗せを実質的に抑えられるとしている。
  • 評価のために、3.62M+件の指示文と8,600の異なる悪意ある意図を含む大規模データセットを構築し、厳密な因果プロトコル下で検証している。
  • その結果、TwinGateは高い悪意意図リコールと低い誤検知率を両立し、適応型攻撃にも頑健であり、スループットとレイテンシの面でも状態保持型・非状態保持型のベースラインを上回ったと報告している。

要旨: 分解型ジャイルブレイクは、大規模言語モデル(LLM)に対する重大な脅威をもたらします。攻撃者は、不正な目的を、個々には無害に見える一連の問いに断片化し、その問いを組み合わせることで禁止された内容を再構成できるためです。実運用の導入環境では、LLM は、完全に匿名化され、任意に相互に交錯させられた要求の、継続的で追跡不能なストリームに直面します。そこには、秘かに分散配置された敵対的クエリが侵入しています。この厳格な脅威モデルの下では、最先端の防御戦略は根本的な限界を示します。信頼できるユーザメタデータがない場合、防御側はグローバルな歴史的文脈を追跡できません。一方で、リアルタイム監視のために生成モデルを導入すると、計算上の過大なオーバーヘッドが生じます。これに対処するため、私たちは、状態を持つデュアルエンコーダ型の防御フレームワークである TwinGate を提案します。TwinGate は、非対称コントラスト学習(ACL)を用いて、意味的には互いに分離しているものの意図が一致する悪意のある断片を共有の潜在空間にクラスタリングします。同時に、並列で凍結したエンコーダが、良性の話題の重なりから生じる誤検知を抑制します。各要求は軽量なフォワードパスを 1 回だけ必要とするため、防御はターゲットモデルのプリフィル段階と並行して、ほぼ遅延なしで実行できます。提案手法を評価し、今後の研究を前進させるために、私たちは 8,600 個の異なる悪意のある意図にまたがる 360 万件を超える命令から成る包括的なデータセットを構築します。この大規模コーパスに、厳密に因果的なプロトコルのもとで評価した結果、TwinGate は、驚くほど低い誤陽性率のまま高い悪意のある意図のリコールを達成し、適応的な攻撃に対しても非常に頑健であることが示されました。さらに、私たちの提案は、状態保持型および状態非保持型のベースラインを大幅に上回り、より高いスループットと低い遅延を実現します。