Abstract
機械的解釈可能性によって、言語モデルの特定の振る舞いの背後にある回路を局所化することが可能になってきましたが、既存の手法は高価であり、モデル固有で、より大規模なアーキテクチャへスケールさせることが難しいです。私たちは、 extbf{Differentiable Faithfulness Alignment (DFA)} という枠組みを導入します。これは、学習された微分可能なアラインメントを通じて、小さなソースモデルから大きなターゲットモデルへ回路情報を転送するものです。DFA は、ソースモデルのノード重要度スコアをターゲットモデルへ投影し、ターゲットモデル上で回路を完全に発見することを避けつつ、ソフトな忠実性(faithfulness)目的でこの写像を学習します。私たちは、事実の取得、複数選択の推論、算術を含む6つのタスクにわたって、Llama-3 と Qwen-2.5 上で DFA を評価します。最も強力な結果は Llama-3 1B
ightarrow3B で得られます。ここでは、アラインされた回路が、しばしば直接のノード帰属と競争力のある性能を示し、ゼロショット転送も効果が維持されます。回復(recovery)は、より大きいソースとターゲットのギャップで弱まり、Qwen-2.5 では実質的にさらに低くなります。これは、アーキテクチャやスケーリングの違いが増えるほど転送が難しくなることを示唆しています。全体として、DFA は一貫して単純なベースラインを上回り、いくつかの設定では、直接の帰属と同等、あるいはそれより強い忠実性で、ターゲットモデルの回路を回復することもあります。これらの結果は、小さなモデルが大きなモデルにとって有用な機械論的事前知識(mechanistic priors)を提供できることを示す一方で、ノードレベルでのクロスモデル回路アラインメントには大きな期待と限界の両方があることを明らかにしています。\footnote{コードは https://github.com/jasonshaoshun/dfa-circuits で利用可能です。