ニューラルネットワーク間での同等なメカニスティック解釈の追跡
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「解釈的同等性(interpretive equivalence)」を形式化することで、大規模なメカニスティック解釈可能性を研究する。すなわち、2つのモデルが、それが何であるかを明示せずとも共通の解釈を共有している場合を扱う。
- 著者らは、コアとなる同等性原理として、「それらの解釈のあり得るすべての実装が同等であるなら、2つの解釈は同等である」と提案する。
- 著者らは、解釈的同等性を推定するためのアルゴリズムを開発し、Transformerベースのモデルを用いたケーススタディによってそれを示す。
- 分析を支えるために、表現の類似性を用いて解釈的同等性の必要十分条件を導出し、アルゴリズム的な解釈、回路、および表現を結び付ける保証を提供する。
- 本フレームワークは、メカニスティック解釈可能性をより厳密に評価できるようにし、また自動化され一般化可能な解釈発見手法を支援することを目的としている。




