ニューラルネットワーク間での同等なメカニスティック解釈の追跡

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「解釈的同等性（interpretive equivalence）」を形式化することで、大規模なメカニスティック解釈可能性を研究する。すなわち、2つのモデルが、それが何であるかを明示せずとも共通の解釈を共有している場合を扱う。
著者らは、コアとなる同等性原理として、「それらの解釈のあり得るすべての実装が同等であるなら、2つの解釈は同等である」と提案する。
著者らは、解釈的同等性を推定するためのアルゴリズムを開発し、Transformerベースのモデルを用いたケーススタディによってそれを示す。
分析を支えるために、表現の類似性を用いて解釈的同等性の必要十分条件を導出し、アルゴリズム的な解釈、回路、および表現を結び付ける保証を提供する。
本フレームワークは、メカニスティック解釈可能性をより厳密に評価できるようにし、また自動化され一般化可能な解釈発見手法を支援することを目的としている。

Abstract

機械論的解釈（MI）は、ニューラルネットワークを解釈するための新しい枠組みである。タスクとモデルが与えられたとき、MIは、そのタスクにおけるモデルの意思決定プロセスを説明する、簡潔なアルゴリズム的手順、すなわち解釈を発見することを目指す。しかし、MIはスケールさせたり汎化させたりすることが難しい。これは主として2つの重要な課題に起因している。すなわち、有効な解釈のための正確な概念が存在しないこと、そして解釈を生成することがしばしばその場しのぎ（ad hoc）で行われることである。本論文では、解釈的同値（interpretive equivalence）の問題を定義し、研究することでこれらの課題に取り組む。すなわち、解釈が具体的に何であるかを明示することを要求せずに、2つの異なるモデルが共通の解釈を共有しているかどうかを判断するのである。本アプローチの中核では、モデルの2つの解釈が、それらのすべての可能な実装が同値である場合に同値である、という原理を提案し、形式化する。解釈的同値を推定するアルゴリズムを開発し、その利用をTransformerベースのモデルに対するケーススタディとして示す。アルゴリズムを分析するために、モデルの表現類似性に基づく解釈的同値のための必要十分条件を導入する。さらに、モデルのアルゴリズム的解釈、回路（circuits）、表現（representations）を同時に結び付ける保証を提供する。本枠組みは、MIのより厳密な評価手法の開発、および自動的で汎用可能な解釈発見手法の開発のための基盤を築くものである。