自己マイニングされた難易度による安全性ファインチューニング

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、候補プロンプトごとに「対象モデルの自分自身のロールアウトが有害と判定される頻度」を難易度スコアとして付け、その最も難しいプロンプトに対して（ジャイルブレイクされていない）モデル自身の非ジャイルブレイク出力を組にしてファインチューニングする手法を提案している。
Llama-3-8B-Instruct と Llama-3.2-3B-Instruct で検証した結果、「自己マイニングされた難易度」アプローチにより WildJailbreak の攻撃成功率が 11.5%／20.1% から 1〜3% へ大幅に低下する一方で、ジャイルブレイク“らしい”良性プロンプトへの拒否が 14〜22% から 74〜94% へと上昇する。
そのトレードオフを改善するため、最難プロンプトを、ジャイルブレイクに見えるが意図は良性である「敵対的に見せた良性プロンプト」と 1:1 で交互に混ぜて学習すると、拒否率は 8B で 30〜51%、3B で 52〜72% まで下がるが、攻撃成功率は 2〜6 パーセントポイント分だけ増える。
混合学習の枠組み内で、適格な候補プールからランダムに半分を選ぶ代わりに「難しい半分」を選んで学習すると、残存する攻撃成功率が 35〜50%（約3パーセントポイント）両モデルで追加的に低減される。

概要: 言語モデルの安全性ファインチューニングには、通常、厳選された敵対的データセットが必要です。私たちは別のアプローチを取ります。各候補プロンプトの難しさを、ターゲットモデル自身のロールアウトが有害だと判断される頻度によってスコア付けし、その後、モデル自身の非ジェイルブレイクなロールアウトとペアにした最も難しいプロンプトでファインチューニングします。Llama-3-8B-InstructおよびLlama-3.2-3B-Instructでは、このアプローチによってWildJailbreak攻撃の成功率が11.5%および20.1%から1-3%へと低下する一方で、ジェイルブレイク形状の良性プロンプトに対する拒否は14-22%から74-94%へと引き上げます。同じ難しいプロンプトを、敵対的な体裁で提示された良性プロンプト（ジェイルブレイクに見えるが意図は良性であるプロンプト）と1:1で交互に混ぜて学習すると、その拒否は8Bで30-51%、3Bで52-72%まで低下しますが、攻撃成功率の低下コストとして2-6パーセンテージポイントを要します。混合レジームの範囲では、利用可能なプールのランダムな半分ではなく、最も難しい半分で学習することで、残存するASR（攻撃成功率）を両モデルとも35-50%（約3パーセンテージポイント）削減できます。

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

Dev.to

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Dev.to

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

MarkTechPost

自己マイニングされた難易度による安全性ファインチューニング

要点

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer