自己マイニングされた難易度による安全性ファインチューニング

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、候補プロンプトごとに「対象モデルの自分自身のロールアウトが有害と判定される頻度」を難易度スコアとして付け、その最も難しいプロンプトに対して(ジャイルブレイクされていない)モデル自身の非ジャイルブレイク出力を組にしてファインチューニングする手法を提案している。
  • Llama-3-8B-Instruct と Llama-3.2-3B-Instruct で検証した結果、「自己マイニングされた難易度」アプローチにより WildJailbreak の攻撃成功率が 11.5%/20.1% から 1〜3% へ大幅に低下する一方で、ジャイルブレイク“らしい”良性プロンプトへの拒否が 14〜22% から 74〜94% へと上昇する。
  • そのトレードオフを改善するため、最難プロンプトを、ジャイルブレイクに見えるが意図は良性である「敵対的に見せた良性プロンプト」と 1:1 で交互に混ぜて学習すると、拒否率は 8B で 30〜51%、3B で 52〜72% まで下がるが、攻撃成功率は 2〜6 パーセントポイント分だけ増える。
  • 混合学習の枠組み内で、適格な候補プールからランダムに半分を選ぶ代わりに「難しい半分」を選んで学習すると、残存する攻撃成功率が 35〜50%(約3パーセントポイント)両モデルで追加的に低減される。

概要: 言語モデルの安全性ファインチューニングには、通常、厳選された敵対的データセットが必要です。私たちは別のアプローチを取ります。各候補プロンプトの難しさを、ターゲットモデル自身のロールアウトが有害だと判断される頻度によってスコア付けし、その後、モデル自身の非ジェイルブレイクなロールアウトとペアにした最も難しいプロンプトでファインチューニングします。Llama-3-8B-InstructおよびLlama-3.2-3B-Instructでは、このアプローチによってWildJailbreak攻撃の成功率が11.5%および20.1%から1-3%へと低下する一方で、ジェイルブレイク形状の良性プロンプトに対する拒否は14-22%から74-94%へと引き上げます。同じ難しいプロンプトを、敵対的な体裁で提示された良性プロンプト(ジェイルブレイクに見えるが意図は良性であるプロンプト)と1:1で交互に混ぜて学習すると、その拒否は8Bで30-51%、3Bで52-72%まで低下しますが、攻撃成功率の低下コストとして2-6パーセンテージポイントを要します。混合レジームの範囲では、利用可能なプールのランダムな半分ではなく、最も難しい半分で学習することで、残存するASR(攻撃成功率)を両モデルとも35-50%(約3パーセンテージポイント)削減できます。