異なるモデル間の回路転送のための微分可能な忠実度アラインメント

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Differentiable Faithfulness Alignment（DFA）という枠組みを提案し、小型のソース言語モデルから大型のターゲット言語モデルへ機械論的回路情報を転送する際に、ターゲット側で回路を完全に発見することなく行う方法を示しています。
DFAは、ソースモデルのノード重要度スコアをターゲットへ射影し、「ソフトな忠実度」目的を最適化することで、コストの高いモデル固有のサーキット探索を避けながら微分可能な対応関係を学習します。
Llama-3 と Qwen-2.5 を用い、事実検索・多肢選択推論・算術を含む6タスクで評価した結果、最良の性能は Llama-3 1B→3B で見られ、転送された回路が直接のノード帰属と競合し得ることが示されました。
効果はソースとターゲットのギャップが大きくなるほど低下し、Qwen-2.5では特に下がるため、より大きなアーキテクチャ差やスケーリング差があると転送が難しくなることが示唆されます。
総じてDFAは単純なベースラインより一貫して良好で、条件によっては、直接の帰属よりも同等以上の忠実度でターゲットの回路を復元できる場合があることから、小型モデルが有用な機械論的事前知識（プリオリ）になり得る一方で限界もあると結論づけています。

Abstract

機械的解釈可能性によって、言語モデルの特定の振る舞いの背後にある回路を局所化することが可能になってきましたが、既存の手法は高価であり、モデル固有で、より大規模なアーキテクチャへスケールさせることが難しいです。私たちは、 extbf{Differentiable Faithfulness Alignment (DFA)} という枠組みを導入します。これは、学習された微分可能なアラインメントを通じて、小さなソースモデルから大きなターゲットモデルへ回路情報を転送するものです。DFA は、ソースモデルのノード重要度スコアをターゲットモデルへ投影し、ターゲットモデル上で回路を完全に発見することを避けつつ、ソフトな忠実性（faithfulness）目的でこの写像を学習します。私たちは、事実の取得、複数選択の推論、算術を含む6つのタスクにわたって、Llama-3 と Qwen-2.5 上で DFA を評価します。最も強力な結果は Llama-3

1

ightarrow3

B で得られます。ここでは、アラインされた回路が、しばしば直接のノード帰属と競争力のある性能を示し、ゼロショット転送も効果が維持されます。回復（recovery）は、より大きいソースとターゲットのギャップで弱まり、Qwen-2.5 では実質的にさらに低くなります。これは、アーキテクチャやスケーリングの違いが増えるほど転送が難しくなることを示唆しています。全体として、DFA は一貫して単純なベースラインを上回り、いくつかの設定では、直接の帰属と同等、あるいはそれより強い忠実性で、ターゲットモデルの回路を回復することもあります。これらの結果は、小さなモデルが大きなモデルにとって有用な機械論的事前知識（mechanistic priors）を提供できることを示す一方で、ノードレベルでのクロスモデル回路アラインメントには大きな期待と限界の両方があることを明らかにしています。\footnote{コードは https://github.com/jasonshaoshun/dfa-circuits で利用可能です。