セマンティック・コードブックによるクロスリンガル・ジェイルブレイク検知

arXiv cs.CL / 2026/4/29

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、マルチリンガルなプロンプト翻訳がジェイルブレイク成功率を高めうることを示し、LLMの安全性が英語中心であることによる体系的な脆弱性(ギャップ)を指摘している。
  • 訓練不要の外部防御として、マルチリンガルなクエリを埋め込み表現にし、英語の「セマンティック・コードブック」(ジェイルブレイク用プロンプト集)と類似度比較することで攻撃らしさを検知する手法を提案している。
  • 4言語、複数の翻訳パイプライン、安全ベンチマーク、埋め込みモデル、対象LLM(Qwen、Llama、GPT-3.5)にわたる実験で、正規のテンプレートを含むキュレーション済みベンチマーク上ではクロスリンガルに検知が安定することを示している。
  • しかし分布シフト下(より多様で異種な危険行動を含むベンチマーク)では性能が大きく低下し、AUCが約0.60–0.70まで下がるほか、低偽陽性領域でのリコールが全ての埋め込みモデルで低下する。

概要: 大規模言語モデル(LLM)の安全メカニズムは、依然として主に英語中心であり、多言語展開において体系的な脆弱性を生み出しています。先行研究では、悪意のあるプロンプトを他の言語に翻訳することで、ジェイルブレイクの成功率が大幅に高まることが示されており、構造的なクロスリンガルなセキュリティギャップが露呈しています。本研究では、再学習や言語固有の適応を行わずに、言語に依存しない意味類似性によってこのような攻撃を緩和できるかどうかを調べます。提案手法は、多言語のクエリエンベディングを、固定された英語のジェイルブレイクプロンプトのコードブックと比較し、ブラックボックスLLMに対する学習不要の外部ガードレールとして機能させます。4つの言語、2つの翻訳パイプライン、4つの安全ベンチマーク、3つのエンベディングモデル、そして3つの対象LLM(Qwen、Llama、GPT-3.5)にわたって体系的な評価を実施します。その結果、クロスリンガル転移には2つの明確なレジームが存在することが分かりました。すなわち、正規のジェイルブレイクテンプレートを含むキュレーション済みのベンチマークでは、意味類似性が言語間で確実に一般化し、ほぼ完全な識別可能性(AUC 最大0.99)と、厳格な低偽陽性制約下での攻撃成功率の絶対値の大幅な低下が得られます。一方、分布シフトの下では、行動的に多様で不均一な危険ベンチマークにおいて、識別可能性が著しく低下します(AUC 9approx 90.60-0.70)。また、セキュリティ上重要な低FPR領域におけるレコールは、すべてのエンベディングモデルで低下します。