SafeSeek:言語モデルにおける安全回路のユニバーサルな帰属
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの安全性に重大な挙動を、機能的に完全な「安全回路」へと確実に帰属することを目指す、メカニスティック解釈可能性のための統一フレームワーク「SafeSeek」を提案する。
- ヒューリスティックあるいはドメイン固有の帰属手法の代わりに、SafeSeekは、勾配降下法で最適化される微分可能な二値マスクを用いて、安全データセットから多粒度の回路を抽出する。
- さらに、特定された疎な回路を再利用して効率的な安全性ファインチューニングを可能にする「Safety Circuit Tuning」を取り入れ、解釈可能性と実運用上の展開の両方を対象とする。
- バックドア攻撃に関する実験では、非常に疎なバックドア回路(0.42%)を特定し、そのアブレーションによって攻撃成功率を100%から0.4%へと崩壊させつつ、一般的な有用性を99%以上保持する。
- 安全整合のためにSafeSeekは、アラインメント回路(3.03%のヘッド、0.79%のニューロン)を局所化する。この回路を除去するとASRが0.8%から96.9%へ急増する一方で、役立つことのファインチューニング中に当該回路を除外することで、安全性の保持率を96.5%に保つ。
