要旨: 本稿では、大規模言語モデル(LLM)の安全性を評価するための、スケーラブルで多様なマルチターン・ジャイルブレイク(jailbreak)ベンチマークであるMultiBreakを提案します。マルチターンのジャイルブレイクは自然な会話環境を模倣するため、単発のジャイルブレイクよりも安全性に整合したLLMを回避しやすくなります。既存のマルチターン・ベンチマークは規模が小さいか、テンプレートに強く依存しており、そのため多様性が制限されています。このギャップに対処するために、幅広い有害なジャイルブレイク意図を統合し、さらに、生成器を不確実性に基づく洗練(refinement)によって導くことで、より強力な攻撃候補を生成するように反復的に微調整する、質の高いマルチターン対抗プロンプトを拡張するためのアクティブラーニング・パイプラインを導入します。MultiBreakには10,389件のマルチターン対抗プロンプトが含まれ、2,665件の異なる有害意図にまたがり、これまでで最も多様なトピック集合をカバーしています。実験的評価の結果、当該ベンチマークは、DeepSeek-R1-7BおよびGPT-4.1-miniにおいて、それぞれ2番手のデータセットよりも攻撃成功率(ASR)を最大で54.0および34.6高めることが示されました。さらに重要なのは、安全性評価から、多様な攻撃カテゴリはLLMのきめ細かな脆弱性を明らかにする一方で、単発の設定では良性に見えるカテゴリでも、マルチターン状況では実質的に高い対抗的有効性を示し得ることが示唆される点です。これらの知見は、現実的な対抗的状況におけるLLMの持続的な脆弱性を浮き彫りにするとともに、MultiBreakがLLM安全性の向上を推進するためのスケーラブルなリソースであることを確立します。
MultiBreak:LLMの安全性評価のためのスケーラブルで多様なマルチターン・ジャイルブレイク・ベンチマーク
arXiv cs.CL / 2026/5/5
📰 ニュースSignals & Early TrendsModels & Research
要点
- MultiBreakは、会話の流れを模した「マルチターン」型のジャイルブレイクを評価するための、スケーラブルで多様性の高いベンチマークを提案しています。
- 既存のマルチターンベンチマークの規模やテンプレ依存による多様性の制約を埋めるため、幅広い有害なジャイルブレイク意図を統合し、能動学習で高品質な攻撃プロンプトを拡張する仕組みを導入しています。
- MultiBreakには10,389件のマルチターン攻撃プロンプトが含まれ、2,665件の異なる有害意図をカバーし、これまでで最も多様なトピック範囲を目指しています。
- 実験では、DeepSeek-R1-7BやGPT-4.1-miniに対して攻撃成功率(ASR)を最大54.0 / 34.6ポイント上回り、さらに多様な攻撃カテゴリがLLMの細かな脆弱性をより明確にすることが示されています。
- 単発では無害に見えるカテゴリでもマルチターンでは攻撃効果が大きくなるなど、現実的な敵対状況におけるLLMの継続的な脆弱性を示す研究であり、LLM安全性向上のための資源として位置づけられています。




