LLMのメカニスティック・ステアリングにより、対敵対的環境での層ごとの特徴脆弱性が明らかに

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、アラインされたLLMがなぜジェイルブレイクに成功するのかを、プロンプトだけでなく内部の特定の特徴が有害出力を引き起こすかどうかという観点から検証している。
Gemma-2-2BとBeaverTailsデータセットを用い、3段階のパイプラインで敵対応答から概念に整合したトークンを抽出し、全26層にわたって関連するSAEの特徴サブグループを特定する。
次に、同定した各サブグループの重要特徴を増幅することでモデルを「メカニスティックにステアリング」し、LLM-judgeの採点プロトコルで有害性スコアの変化を評価する。
クラスタリング、階層的リンケージ、単一トークン駆動といった複数の特徴グルーピング手法のいずれでも、層16〜25がステアリングに対して相対的に脆弱であることが示される。
ジェイルブレイクの脆弱性が中〜後半層の特徴サブグループに局在している可能性が示唆され、プロンプト中心の防御よりも、特徴レベルで狙い撃ちする介入がより原理的な頑健性向上につながる可能性がある。

Abstract

大規模言語モデル（LLM）は、安全性のアライメントがなされていても、危害を加える出力を生成するようにジェイルブレイクされてしまうことがある。既存の攻撃はこの脆弱性が存在することを示しているが、その原因となる内部メカニズムは明らかになっていない。本研究は、ジェイルブレイクの成功が、プロンプトだけではなく識別可能な内部特徴によって駆動されるのかどうかを問う。われわれは、BeaverTailsデータセットを用いたGemma-2-2Bのための3段階パイプラインを提案する。まず、部分空間類似度を用いて、敵対的応答から概念に整合したトークンを抽出する。次に、3つの特徴グルーピング戦略（クラスタリング、階層的連鎖、単一トークン駆動）を適用し、全26層のモデルにわたって、整合したトークンに対応するSAE特徴サブグループを特定する。最後に、各サブグループで特定された上位の特徴を増幅することでモデルを誘導し、標準化されたLLMジャッジのスコアリング手順を用いて危害性スコアの変化を測定する。3つのアプローチすべてにおいて、層[16-25]の特徴は、誘導に対して比較的脆弱であった。3つの方法すべてが、中間層から後半層にかけての特徴サブグループのほうが、危険な出力により強く関与していることを確認した。これらの結果は、Gemma-2-2Bにおけるジェイルブレイク脆弱性が、中間層から後半層の特徴サブグループに局在していることを示す証拠であり、標的化された特徴レベルでの介入は、現在のプロンプトレベルの防御よりも、より筋の通った形で敵対的ロバスト性への道を提供し得ることを示唆している。