摂動プロービング:整合(アラインド)LLMにおけるFFN行動回路を1プロンプト2パスで診断する手法

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 摂動プロービングは、2回のフォワードパスでバックプロパゲーションなしに、整合(アラインド)LLMのFFNニューロン回路について因果仮説を生成する手法として提案されました。
  • 複数のモデルとアーキテクチャにわたって、主要な回路構造として「反対(opposition)回路」と「ルーティング回路」の2種類が特定されました。
  • 安全上の拒否行動では、約50ニューロンが拒否テンプレートを支配し、それらをアブレーションするとAdvBenchの520プロンプトで応答フォーマットの約80%が変化する一方、有害な追従はほぼゼロに保たれました。
  • 言語選択については、方向性注入により一部のモデルで英語から中国語への出力切り替えがベンチマーク580件の99.1%で成功しますが、他の多くのモデルでは失敗し、方向性ステアリングの限界が示されました。
  • 同じ2パスから計算される指標「FFN-to-skip signal ratio」が回路タイプを識別し、介入の成否を予測できること、さらに回路トポロジはQwenやGemmaのようにアーキテクチャごとに異なることが示されました。

要旨: 摂動プロービングは、大規模言語モデルにおけるFFNニューロンに対して、プロンプトごとに2回のフォワードパスを用い、逆伝播を行わずに、タスク固有の因果仮説を生成する。続いて、特定された全ニューロンにわたって償却された約150回のパスによる1回限りの介入スイープを実施する。8つの行動サーキット、13モデル、4つのアーキテクチャ系統にわたって、LLMの振る舞いを組織化する2つの回路構造を同定する。対立サーキットは、RLHFが事前学習による傾向を抑制するときに現れる。安全性の拒否では、約50ニューロン、すなわち全ニューロンの0.014%が拒否テンプレートを制御し、それらをアブレーションすると、520件のAdvBenchプロンプトに対する応答フォーマットの80%が変化する一方で、有害なコンプライアンスはほぼゼロに抑えられ、520件中3件のみ、かつすべて免責文付きとなる。ルーティングサーキットは、注意(attention)を通じて分散した事前学習の振る舞いに対して現れる。言語選択では、残差ストリームへの方向付け注入により英語から中国語への出力が切り替わり、19の検証済みモデルのうち条件を満たす3モデルにおいて、580件のベンチマークプロンプトのうち99.1%で中国語出力となる。この3モデルは、(1) バイリンガルな学習、(2) FFNからスキップへの信号比が0.3から1.1の範囲、(3) 線形表現可能性、という3つの観測条件を満たしている。同じ介入は、残りの16モデルおよび数学・コード・事実(ファクト)サーキットでは機能せず、方向付けによる操舵の限界を画定する。2回の同一フォワードパスから計算されるFFNからスキップへの信号比は、この2つの構造を区別し、適切な介入を予測する。回路トポロジーはアーキテクチャによって異なり、Qwenでは集中したFFNボトルネックから、Gemmaでは正規化によって防護された回路まで様々である。Qwen3.5-2Bでは、20ニューロンをアブレーションすると、多ターンの迎合的(シプロシー)な屈服が消失し、関連する10ニューロンを増強すると、200件のTruthfulQAプロンプトにおける事実修正が52%から88%へと改善する。これらの結果は、摂動プロービングがRLHFによって組織化された振る舞いへの機械論的な洞察を提供し、テンプレート層を精密に編集するための実用的なツールキットになることを示している。