SafeSeek:言語モデルにおける安全回路のユニバーサルな帰属

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの安全性に重大な挙動を、機能的に完全な「安全回路」へと確実に帰属することを目指す、メカニスティック解釈可能性のための統一フレームワーク「SafeSeek」を提案する。
  • ヒューリスティックあるいはドメイン固有の帰属手法の代わりに、SafeSeekは、勾配降下法で最適化される微分可能な二値マスクを用いて、安全データセットから多粒度の回路を抽出する。
  • さらに、特定された疎な回路を再利用して効率的な安全性ファインチューニングを可能にする「Safety Circuit Tuning」を取り入れ、解釈可能性と実運用上の展開の両方を対象とする。
  • バックドア攻撃に関する実験では、非常に疎なバックドア回路(0.42%)を特定し、そのアブレーションによって攻撃成功率を100%から0.4%へと崩壊させつつ、一般的な有用性を99%以上保持する。
  • 安全整合のためにSafeSeekは、アラインメント回路(3.03%のヘッド、0.79%のニューロン)を局所化する。この回路を除去するとASRが0.8%から96.9%へ急増する一方で、役立つことのファインチューニング中に当該回路を除外することで、安全性の保持率を96.5%に保つ。

Abstract

機械論的解釈可能性は、大規模言語モデル(LLM)における安全性にクリティカルな振る舞い(例:アラインメント、ジェイルブレイク、バックドア)が、特殊化された機能コンポーネントに基づいていることを明らかにする。しかし、既存の安全性アトリビューション(帰属)手法は、ヒューリスティックなドメイン固有の指標や探索アルゴリズムに依存しているため、一般化と信頼性の面で苦戦している。これに対し、本研究では ourmethod を提案する。これは、最適化によって LLM 内の機能的に完備した安全回路を同定する統一的な安全性解釈可能性フレームワークである。孤立したヘッドやニューロンに焦点を当てる手法とは異なり、ourmethod は、安全データセット上での勾配降下により、微分可能な二値マスクを導入して多粒度の回路を抽出する。また、これらの疎な回路を用いて効率的な安全性微調整を行うために Safety Circuit Tuning を統合する。我々は、LLM の安全性において重要な2つのシナリオで ourmethod を検証する:(1)\textbf{(1) バックドア攻撃}:0.42\% のスパース性をもつバックドア回路を同定し、そのアブレーションにより攻撃成功率(ASR)が 100\% から 0.4\% に低下する一方で、99\% 超の汎用的有用性を維持する。(2)\textbf{(2) 安全性アラインメント}:3.03\% のヘッドおよび 0.79\% のニューロンからなるアラインメント回路を局所化する。この回路を除去すると ASR が 0.8\% から 96.9\% へと急上昇するが、有益性(helpfulness)の微調整中にこの回路を除外すると 96.5\% の安全性保持が維持される。