動的敵対的ファインチューニングが拒否(refusal)のジオメトリを再編する

arXiv cs.LG / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、安全整合(safety-aligned)された7B言語モデルにおいて、R2D2型の動的敵対的ファインチューニングがトレーニング中に「拒否のジオメトリ(refusal geometry)」をどう変えるかを調べている。
  • HarmBench、StrongREJECT、XSTestに、拒否ジオメトリの5つのアンカー・スイートと因果介入を組み合わせた計測駆動のプロトコルで、著者らはトレーニングの各ステップにおけるジャイルブレイク/拒否挙動の変化を追跡した。
  • 結果として、R2D2はHarmBenchで攻撃成功率をステップ50・100でほぼゼロまで下げられる一方(0.000)、その後は部分的に再上昇する(ステップ250で0.035、ステップ500で0.250)ことが示された。
  • XSTestでは、R2D2の「any-refusal」が序盤で1.000と高いが、その後0.664、0.228へと大きく低下し、拒否特性が固定の防御として維持されるのではないことが示唆される。
  • 著者らは、拒否の“キャリア”がトレーニングを通じて後層から前層へ移り替わる一方で、有効な制御ランクはおよそ1.23〜1.27付近で保たれることを見いだし、「再編(reorganization)」が「ドリフトのみ(drift-only)」より妥当だと結論づけている。