概要: 大規模言語モデルにおけるジェイルブレイク挙動の検出は依然として難しい課題です。特に、強く整合(アラインメント)されたモデルが有害な出力を生成するのはまれである場合に困難になります。本研究では、JailbreakBench Behaviors データセットと、アラインメントの強さが異なる複数のジェネレータモデルを用いて、現実的な条件下での出力ベースのジェイルブレイク検出に関する実証的研究を提示します。さまざまなサンプリング予算にわたって、語彙ベースの TF-IDF 検出器と、生成の不一致に基づく検出器の両方を評価します。結果として、単一の出力評価はジェイルブレイク脆弱性を体系的に過小評価することが分かりました。これは、サンプリングした生成数を増やすことで、追加の有害な挙動が明らかになるためです。最も大きな改善は、1 つの生成から中程度のサンプリングへ移行したときに起きますが、より大きなサンプリング予算では得られる効果が逓減します。生成器をまたいだ実験では、検出シグナルがモデル間で部分的に一般化することが示され、関連するモデルファミリー内でより強い転移が観測されます。カテゴリ水準の分析によりさらに、語彙検出器は純粋に有害な挙動だけを捉えるのではなく、行動に関するシグナルとトピック固有の手がかりの混合を捉えていることが明らかになりました。総合すると、本研究結果は、大規模言語モデルにおけるモデルの脆弱性を推定し、ジェイルブレイク検出を改善するために、適度なマルチサンプル監査がより信頼性が高く実用的なアプローチであることを示唆しています。コードは公開されます。
大規模言語モデルにおける脱獄検出のための多世代サンプリング手法に関する実証研究
arXiv cs.CL / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、JailbreakBench Behaviorsとアライメント強度の異なる複数の生成モデルを用いて、大規模言語モデルにおける現実的条件下での脱獄(jailbreak)検出を実証的に調査しています。
- 2つの手法(語彙ベースのTF-IDF検出と、生成の不一致に基づく検出)を、プロンプトごとにどれだけ出力をサンプリングするか(サンプリング予算)を変えて比較しています。
- 著者らは、1プロンプトにつき1出力のみ評価すると脱獄脆弱性が体系的に過小評価されることを示し、多数の生成をサンプルすると有害な挙動がより多く明らかになると報告しています。
- 改善は、単一生成から中程度のマルチサンプリングへ切り替えたときに最も大きく、より大きなサンプリング予算では効果が逓減します。
- モデル間の実験では検出シグナルが部分的に一般化し、関連するモデルファミリ内での転移がより大きいことが示され、語彙検出器は「有害挙動だけ」ではなくトピック固有の手がかりも混在して捉えることが明らかにされています。



