LLMのメカニスティック・ステアリングにより、対敵対的環境での層ごとの特徴脆弱性が明らかに
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、アラインされたLLMがなぜジェイルブレイクに成功するのかを、プロンプトだけでなく内部の特定の特徴が有害出力を引き起こすかどうかという観点から検証している。
- Gemma-2-2BとBeaverTailsデータセットを用い、3段階のパイプラインで敵対応答から概念に整合したトークンを抽出し、全26層にわたって関連するSAEの特徴サブグループを特定する。
- 次に、同定した各サブグループの重要特徴を増幅することでモデルを「メカニスティックにステアリング」し、LLM-judgeの採点プロトコルで有害性スコアの変化を評価する。
- クラスタリング、階層的リンケージ、単一トークン駆動といった複数の特徴グルーピング手法のいずれでも、層16〜25がステアリングに対して相対的に脆弱であることが示される。
- ジェイルブレイクの脆弱性が中〜後半層の特徴サブグループに局在している可能性が示唆され、プロンプト中心の防御よりも、特徴レベルで狙い撃ちする介入がより原理的な頑健性向上につながる可能性がある。




