概要: LLM のレッドチーミングに関する多くのアプローチでは、攻撃者 LLM を用いて、ターゲットに対する脱獄(ジャイルブレイク)を発見します。これらのうちいくつかは、試行錯誤によって有効な戦略を特定するよう攻撃者に課題を与え、その結果、成功の範囲が意味的に限定されてしまいます。別のアプローチでは、有害なクエリや戦術をクラウドソーシングで集め、それらを攻撃者への指示に組み合わせることで多様な攻撃を発見しますが、ランダムに行うため、効果が制限されます。本記事では、Adaptive Instruction Composition(適応的指示合成)という新しい枠組みを紹介します。これは、有効性と多様性を同時に最適化するように学習された適応メカニズムに従って、クラウドソーシングされたテキストを組み合わせます。反復的な命令の組合せ空間において、探索と活用のバランスをとるために強化学習を用い、ターゲットの脆弱性に合わせた多様な生成へと攻撃者を導きます。提案手法は、モデルの転送(transfer)下でも、有効性と多様性の指標群において、ランダムな組み合わせに比べて大幅に優れていることを示します。さらに、Harmbench においても、最近の多数の適応型アプローチを上回ることを示します。対照的埋め込み(contrastive embedding)の入力に適応する軽量なニューラル文脈付きバンディットを採用し、また、対照的な事前学習により、ネットワークが学習しながら大規模な空間に迅速に一般化し、スケールできることを示唆するアブレーションも提供します。
標的LLMのレッドチーミングのための適応的な指示文合成
arXiv cs.CL / 2026/4/24
💬 オピニオンModels & Research
要点
- この論文では、ランダム合成や試行錯誤に比べて有効性と多様性を同時に高める「Adaptive Instruction Composition」フレームワークを提案している。
- 強化学習を用いて探索と活用のバランスを取りながら、標的の脆弱性に合わせたレッドチーム用指示の組合せ空間を探索する。
- 有効性と多様性の両方の指標で、ランダムな指示合成よりも大幅に優れていることが示され、モデル転送の条件でも性能が維持される。
- Harmbenchベンチマークにおいても複数の最新の適応型ベースラインを上回り、対照的埋め込み入力を使う軽量なニューラル文脈バンディットを採用している。
- アブレーション結果から、対照的事前学習がバンディットの高速な汎化と、学習が進むにつれて巨大な指示空間へのスケールに寄与することが示唆されている。


