コントラスト階層アブレーションによる大規模言語モデルのニューロン・アンカー付きルール抽出

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの内部の「アゴニスト」ニューロンに基づいて回路レベルで根拠づけながら、象徴的なルールを抽出する説明可能AI（XAI）パイプラインMechaRuleを提案しています。
MechaRuleは、ニューロン局在化を「overtopping（優越）」という近似的に単調で飽和する仮定のもとでの適応的グループテストとして捉えることで、コントラスト階層アブレーションにより疎なアゴニスト集合を効率的に特定します。
さらに、アブレーション検証においては、ルール挙動に対して忠実度が高いデータ分割を用いることが重要であり、スペクトラル分割はフォールバックとして有用だが、不忠実な分割は局在化を悪化させると述べています。
実験では、Qwen2およびGPT-Jの算数・ジェイルブレイク課題でMechaRuleが高効果のアゴニストを力ずく比較から96.8%回収でき、局在化したアゴニストを抑制すると算数精度とジェイルブレイク成功が大きく低下することを示しています。

要旨: 説明可能AI（XAI）の重要な目標の1つは、大規模言語モデル（LLM）の意思決定ロジックを記号形式で表現し、それを内部メカニズムと結び付けることです。グローバルなルール抽出手法は通常、モデル回路にルールを実際に根付けることなく、記号的な代理モデルを学習します。一方、メカニズムに基づく解釈可能性（mechanistic interpretability）は、行動をニューロン集合と結び付けることができますが、多くの場合、手作業で作った仮説や、高価なニューロンレベルの介入に依存します。私たちは、MechaRuleというパイプラインを導入します。MechaRuleは、アゴニストと呼ばれる疎なニューロンを効率よく局在化することで、LLM回路にルール抽出を根付けます。アゴニストの活性化を中和すると、ルールに関連する振る舞いが破壊されます。MechaRuleは2つの経験的観察に基づいています。第一に、固定されたベースライン／フリップ（baseline/flip）規範のもとでは、疎なアゴニストの効果はおおよそ単調で飽和的であると見なせます。粗いスケールでは、いくつかの支配的なニューロン活性が弱い活性を上回ることができ、また重なり合うニューロンは多くの同じ例を反転させます。これにより、単調な「上書き（overtopping）」の抽象化の下で、局在化を、単に候補群の中からルールを探すのではなく、レジーム条件付きの強度述語（strength predicate）によって駆動される適応的グループテストとして捉えることが動機づけられます。さらに、信頼（confidence）に導かれた保守的な枝刈りを行うことで、k << N のとき、アゴニストがN個の候補のうちk個であるならば、必要な介入回数は N に対して Θ(k log(N/k) + k) になります。第二に、アブレーション（ablation）は、ほぼ忠実なルールの挙動に整合するデータ分割によって検証されると、アゴニストがより確実に現れます。スペクトル分割はルールなしのフォールバックとして依然有用ですが、忠実でない分割は局在化を劣化させます。実験的には、「上書き」は、学習された、課題に整合したレジームで主に観測されます。Qwen2とGPT-Jにまたがる算術タスクおよびジャイルブレイク（jailbreak）タスクで、MechaRuleは完了した比較において、高効果のブルートフォース・アゴニストの96.8%を想起（recall）し、局在化されたアゴニストを抑制すると、それぞれ算術の精度とジャイルブレイクの成功率が最大71.1%および8.8%低下します。