要約: トランスフォーマーは外科的制御に抵抗する。大文字化に重要だと識別されたアテンションヘッドを除去しても、分散冗長性が損傷を補償するため、行動変化は最小限にとどまる。このハイドラ効果は解釈性を幻影にする: 相関を通じて成分を特定できても、それらの因果的役割を予測したり制御したりすることはできない。我々は、アーキテクチャ的介入が隠れたモジュール性を露呈させ得ることを示す。我々のアプローチは、トークン表現と文脈表現を分離するデュアルストリーム処理、各深さで独立した勾配信号を提供する層ごとの監督、離散的な活性化パターンへ正規化するゲート付きアテンションを組み合わせる。層ごとの監督を用いて訓練された場合、層ごとに同一のアーキテクチャの対照よりもアブレーション効果が5倍から23倍大きくなる。これにより、ターゲットとする挙動に対する制御のレバレッジが4倍向上する。識別されたアテンションヘッドをスケーリングすると、モデル出力に滑らかで予測可能な変化を生じる。主要な発見は構造に関するものである。層ごとの監督がない場合、アブレーションによる損傷はほぼゼロ近傍に集中し、分散は低い(Winograd 標準偏差 0.63%)。層ごとの監督があると、効果は広く分布する(標準偏差 6.32%)、どの予測がどの回路に依存しているかを明らかにする。この大きな分散は測定ノイズではなく、露出したモジュール性の兆候である。我々は次の3つの要素を通じてアプローチを検証する:語彙構造ではなく計算動態を捉える設計済み特徴量(生の活性化クラスタリングとのほぼゼロ相関で検証済み)、モジュール性に対する正の制御を提供するアーキテクチャ、そして異なるタスクが異なるアテンションヘッドを通じて経路を分ける機能的再編成を示す因果実験。これは、解釈可能性を受動的な観察から能動的な制御へ変換する方法論を確立する。
レイヤーごとの監督によるトランスフォーマーの検証可能なモジュール性の実現
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- トランスフォーマーは分散冗長性を示すため、単一のアテンションヘッドをアブレーションしても挙動はほとんど変化せず、解釈可能性を難しくしている。
- 著者らは、デュアルストリーム処理、レイヤーごとの監督、ゲート付きアテンション正則化を用いたアーキテクチャ的アプローチを提案し、モデルのモジュール性を明らかにする。
- レイヤーごとの監督を用いて訓練した場合、アブレーション効果は同程度に訓練した対照群より5〜23倍大きくなり、対象となる挙動に対する制御レバレッジを4倍高める。
- レイヤーごとの監督がない場合、アブレーションの影響はほぼゼロで低分散にとどまるが、レイヤーごとの監督があると効果は広く拡散し、モジュール化された回路の痕跡が現れ、どの予測がどの回路に依存しているかを明らかにする。
- このアプローチは、計算ダイナミクスを捉える設計された特徴量、モジュール性を正の制御として提供するアーキテクチャ、異なるタスクが異なるアテンションヘッドを経由して機能的に再編成されることを示す因果実験によって検証され、能動的な解釈性を実現する。