Weight Patching: LLMにおけるソースレベルのメカニズム的局所化に向けて

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「Weight Patching(重みパッチング)」という、メカニズム的解釈可能性を目的としたパラメータ空間での介入手法を提案し、能力を本当に符号化しているパラメータと、上流の信号を単に増幅するだけのモジュールを区別することを目指す。
  • 同一アーキテクチャの2つのモデル(基底モデルと、行動に特化した対応モデル)に対し、特定のモジュール重みを対応モデルから基底モデルへ置換し、固定した入力のもとで因果的な起源を探ることで動作する。
  • 著者らはこの手法を命令追従に対して具体化し、ベクトルアンカー(vector-anchor)による振る舞いインターフェースを提案する。これは、自由生成(オープンエンド生成)の間にタスクに関連する制御状態が形成されたか、または回復したかを検出するための共通の内部基準として機能する。
  • この枠組みにより、因果的構成要素の多段階の階層構造が明らかになる。浅い「キャリア(carrier)」候補から、集約/ルーティングのモジュール、そして下流の実行回路までが段階的に並ぶ。
  • 本論文ではさらに、構成要素の「回復スコア(recovered scores)」が、メカニズムを意識したモデル統合(モデルマージ)を支え得ることを示す。これにより、専門家(エキスパート)同士の組み合わせに対して、より選択的な融合が可能になり、加えて外部検証も提供できる。

要旨: 機械的解釈可能性は、モデルの振る舞いを、それを因果的に実現している内部コンポーネントへと局在化することを目指します。先行研究は、活性化空間の局在化や因果トレーシングを前進させてきました。しかし、活性化空間上で重要に見えるモジュールは、目標となる能力をそれ自身のパラメータで符号化しているというより、上流からの信号を単に集約したり増幅したりしているだけかもしれません。このギャップに対処するために、本研究では Weight Patching(重みパッチング)を提案します。これは、同一アーキテクチャのペアモデルを対象とした、ソース指向の分析のためのパラメータ空間介入手法です。ここで、関心のある入力に対して、ある目標能力をどれほど強く表現するかが異なっている2つのモデルを考えます。基となるモデルと、行動が特化した対応モデルが与えられたとき、Weight Patching は、固定した入力のもとで、特化モデルから選択したモジュールの重みを基となるモデルへと置き換えます。本手法を命令追従に適用し、ベクトルアンカーによる振る舞いインターフェースを中心とした枠組みを導入します。このインターフェースは、開放的な生成においてタスクに関連する制御状態が形成された、または回復されたかどうかの判定に用いる共有された内部基準を提供します。この枠組みによる分析により、浅い候補のソース側キャリアから、集約およびルーティングを担うモジュール、そして下流の実行回路に至る階層構造が明らかになります。回復されたコンポーネントのスコアは、メカニズムを意識したモデルの統合にも利用でき、評価した専門家の組み合わせ全体で選択的なフュージョンを改善し、さらに外部的な追加検証を提供します。