ContextualJailbreak：模擬的な会話プライミングによる進化的レッドチーミング

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、模擬的なマルチターン会話プライミングに対して進化的探索を行うブラックボックスのレッドチーミング手法「ContextualJailbreak」を提案し、LLMの安全アライメントを回避することを狙います。
既存の自動レッドチーミングが単発設定に偏っていた課題に対し、2段階ジャッジから得る0〜5の段階的な有害度スコアを探索内の信号として用いて、対話レベルのプライミング形状を最適化します。
アプローチは5つの意味的に定義された変異オペレータ（roleplay、scenario、expand、troubleshooting、mechanistic）を用い、後者2つ（troubleshooting と mechanistic）は本研究の新規貢献として位置づけられています。
HarmBenchの50の挙動で評価した結果、gpt-oss:20B/qwen3-8B/llama3.1:70Bでいずれも100%、gpt-oss:120Bで90%と非常に高い攻撃成功率が示され、複数の単発・マルチターンのベースラインを上回りました。
発見された最も有害な攻撃は一部のクローズドモデルへ適応なしで移転しますが、プロバイダ間でアライメント頑健性に大きな非対称性があり、Claude系では成功率が大きく低下するなど差が顕著でした。

要旨: 大規模言語モデル（LLM）は、安全性アラインメントを回避して有害な応答を引き出す脱獄攻撃に依然として脆弱です。文脈プライミング、つまり先行するターンが後続の応答を秘かにバイアスする手法が、強力な攻撃面を構成することを示す研究が増えてきています。さらに、手作りの複数ターンの足場（scaffold）は、能力の高いモデルにおいて、単発の操作を一貫して上回ります。
しかし、自動化された最適化ベースのレッドチーミングは、ほとんどが単発設定にとどまっており、静的なプロンプトを反復するだけで、どの形式の会話的プライミングがコンプライアンスを誘発するのかを推論する能力がありません。近年、複数ターンかつ探索ベースのアプローチがこのギャップを埋め始めているものの、有効なプライミング対話を支える突然変異（mutator）の設計空間は、依然として十分に解明されていません。
我々は、シミュレートされた複数ターンのプライミング対話に対して進化的探索を行う、ブラックボックスのレッドチーミング戦略である ContextualJailbreak を提示します。この戦略は、2段階のジャッジから得られる0〜5の段階的な害悪スコアをループ内の信号として活用し、部分的に有害な応答を捨てるのではなく、それらを探索プロセスを導くために利用できるようにします。
探索は、意味的に定義された5つの突然変異演算子、ロールプレイ（roleplay）、シナリオ（scenario）、拡張（expand）、トラブルシューティング（troubleshooting）、メカニスティック（mechanistic）によって駆動されます。このうち最後の2つは、本研究の新規貢献です。
代表的なHarmBenchの50の挙動にわたって、ContextualJailbreak は gpt-oss:20B でASR 100%、qwen3-8B でASR 100%、llama3.1:70B でASR 100%、gpt-oss:120B でASR 90% を達成し、平均で31〜96パーセンテージポイントの差で4つの単発および複数ターンのベースラインを上回ります。
gpt-oss:120B に対して発見された、最大限に有害な40件の攻撃は、適応なしでクローズドな最前線モデルへ転移し、gpt-4o-mini で90.0%、gpt-5 で70.0%、gemini-3-flash で70.0% を達成しましたが、claude-opus-4-7 では17.5%、claude-sonnet-4-6 では15.0% にとどまりました。これはアラインメント頑健性におけるプロバイダレベルの顕著な非対称性を示しています。