ステアリングベクトルの安全性に潜む落とし穴を分析する

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コントラスティブ・アクティベーション・アディション(CAA)によって生成されたアクティベーション・ステアリングベクトルに対し、体系的な安全性監査を行い、ステアリングがLLMのジェイルブレイク成功率に実質的な影響を与えうることを示す。
  • ジェイルブレイクベンチ(JailbreakBench)を統一された評価プロトコルのもとで用いて、著者らはステアリングベクトルが攻撃の成功を増加させる場合も減少させる場合もあること、また標的とする挙動によって最大で+57%または-50%といった変化が起こり得ることを見出す。
  • 本研究では、増幅が特に単純なテンプレートベースのジェイルブレイク攻撃で強いことを観察し、安全性への影響が攻撃形式に敏感であることを示唆する。
  • 著者らは、その効果をステアリングベクトルと潜在的な拒否(refusal)方向との重なりに帰し、安全性のギャップが生じる仕組みを追跡可能な形で説明している。
  • 全体として、本研究はアクティベーション・ステアリングにおける「制御可能性—安全性」のトレードオフを浮き彫りにし、ステアリングの安全面での含意は十分に探究されておらず、かつ重要になり得ることを強調する。

Abstract

アクティベーション・ステアリングは、重み更新を必要とせずにLLMの挙動を形作るための強力な手法として登場してきた。内在する脆さや信頼性の低さは十分に文書化されているが、その安全性への影響はまだ十分に調査されていない。本研究では、広く使われているステアリング手法であるContrastive Activation Addition (CAA) によって得られたステアリングベクトルについて、統一された評価プロトコルのもとで体系的な安全性監査を行う。JailbreakBenchをベンチマークとして用いることで、ステアリングベクトルがジェイルブレイク攻撃の成功率に一貫して影響を与えることを示す。特に、単純なテンプレートベースの攻撃では増幅がより強いことが分かる。LLMのファミリーやサイズをまたいで、特定の方向にモデルをステアリングすることで、標的とする挙動に応じて、攻撃成功率(ASR)を大幅に増加(最大57%)させたり、減少(最大50%)させたりできる。これらの現象は、ステアリングベクトルと拒否行動の潜在的な方向との重なりによるものだと本研究では考察する。したがって、本発見に対して追跡可能な説明を提示する。これらの結果は、LLMにおいてこれまで観測されていなかったこの安全性のギャップの起源を明らかにし、制御可能性と安全性の間にトレードオフが存在することを強調している。