要旨: 言語モデルの解釈可能性に関する研究において、\textbf{回路トレーシング(circuit tracing)}は、特定の出力に因果的に寄与した内部の特徴が何であるか、またそれらが互いにどのように影響し合ったのかを特定し、ある種の振る舞いの背後にある計算を説明することを目指します。しかし、これまでの回路トレーシングの研究はすべて、回路内の各特徴が果たす役割についての、その場しのぎの人間による解釈に依存してきました。具体的には、コンポーネントが活性化するデータセット例などのデータアーティファクトを手動で検査することで行います。本研究では、これらの帰属グラフを記述するための、完全に自動化されたエンドツーエンドのパイプラインである\textbf{ADAG}を提案します。これを実現するために、\textit{帰属プロファイル(attribution profiles)}を導入し、特徴の入力および出力の勾配への影響を通じて、その特徴の機能的な役割を定量化します。さらに、この特徴をグループ化するための新しいクラスタリングアルゴリズムを導入し、これらの特徴グループの機能的役割に関する自然言語の説明を生成して評価する、LLMエクスプレイナー—シミュレータの設定を導入します。既知の人間が分析した回路トレーシング課題に対して本システムを実行し、解釈可能な回路を復元します。加えて、ADAGが、Llama 3.1 8B Instructにおける有害なアドバイス・ジェイルブレイクの原因となる操縦可能(steerable)なクラスタを見つけられることも示します。
ADAG: 自動的に帰属グラフを記述する
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語モデルの解釈可能性や回路トレーシングに用いられる帰属グラフを記述するための、エンドツーエンドかつ完全自動のパイプライン「ADAG」を提案している。これは成果物の手動検査に依存しない。
- ADAGは「帰属プロファイル」を用い、入出力の勾配効果によって特徴の機能的役割を定量化することで、特徴の寄与をより体系的に測定する。
- 関連する特徴を機能コンポーネントへとまとめるための新しいクラスタリングアルゴリズムを提案し、首尾一貫したサブ回路の復元を目指す。
- その上で、LLMベースのエクスプレイナー–シミュレータ構成により、これらの特徴グループの役割に関する自然言語の説明を生成し、スコアリングする。
- 著者らは、ADAGが既存の人手で解析されたベンチマークにおいて解釈可能な回路を復元でき、さらにLlama 3.1 8B Instructにおける有害なアドバイス・ジェイルブレイクに結び付いたステア可能なクラスタを特定できることを報告している。


