ステアリングベクトルの安全性に潜む落とし穴を分析する
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コントラスティブ・アクティベーション・アディション(CAA)によって生成されたアクティベーション・ステアリングベクトルに対し、体系的な安全性監査を行い、ステアリングがLLMのジェイルブレイク成功率に実質的な影響を与えうることを示す。
- ジェイルブレイクベンチ(JailbreakBench)を統一された評価プロトコルのもとで用いて、著者らはステアリングベクトルが攻撃の成功を増加させる場合も減少させる場合もあること、また標的とする挙動によって最大で+57%または-50%といった変化が起こり得ることを見出す。
- 本研究では、増幅が特に単純なテンプレートベースのジェイルブレイク攻撃で強いことを観察し、安全性への影響が攻撃形式に敏感であることを示唆する。
- 著者らは、その効果をステアリングベクトルと潜在的な拒否(refusal)方向との重なりに帰し、安全性のギャップが生じる仕組みを追跡可能な形で説明している。
- 全体として、本研究はアクティベーション・ステアリングにおける「制御可能性—安全性」のトレードオフを浮き彫りにし、ステアリングの安全面での含意は十分に探究されておらず、かつ重要になり得ることを強調する。