「良いりんご」を仕分ける：因果アブストラクションの診断と改善のための手法

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、提案された解釈が特に忠実に成り立つ入力部分空間を特定することで、ニューラルネットの解釈を診断する手法を提案する。
因果アブストラクションの評価を、単一の「介在（interchange）介入精度」というグローバル指標から、ペアごとの介入挙動に基づいて入力空間を「よく解釈できる領域／解釈しにくい領域」に分割して評価する枠組みに改良する。
これにより、解釈が機能するかどうかだけでなく、どこで成功しどこで失敗するのか、そして両者を分ける要因は何かを明らかにでき、因果アブストラクションがより診断的になる。
高レベル仮説の不足した区別の特定、未モデリングの中間変数の発見、相補的な部分解釈の統合といった、実用的な解釈改善のヒューリスティックも提示する。
4ステップのレシピとして具体化され、複数の因果アブストラクション設定で有益な誤り分析を行えることが示され、さらにおもちゃの論理課題では再帰的適用により高レベル仮説をゼロから回復できる。

Abstract

我々は、提案された解釈が高い忠実性を持つ入力部分空間を特定することで、ニューラルネットワークにおける解釈を診断する手法を提示する。この手法は、因果抽象スタイルの解釈可能性に特に有用であり、そこでは高レベルの因果仮説を介入の交換（interchange interventions）によって評価する。交換介入の正確さを単一のグローバルな要約として扱うのではなく、入力空間を、対（pairwise）の交換介入の振る舞いに基づいて、よく解釈された領域と十分に解釈されていない領域に分割することで、この枠組みを洗練させる。これにより、因果抽象は単なるグローバル評価から、より診断的な道具へと変わる。すなわち、それは解釈が機能するかどうかを測るだけでなく、どこで機能し、どこで失敗し、そして二つの状況をどのように区別しているのかを明らかにする。この診断的な見方は、解釈を改善するための実践的なヒューリスティックも提供する。よく解釈された領域と十分に解釈されていない領域の構造を解析することで、高レベルの仮説に欠けている識別を特定し、これまでモデル化されていなかった中間変数を発見し、相補的な部分的解釈を組み合わせてより強力な解釈へと統合できる。我々はこの考えを単純な四ステップの手順として具体化し、複数の因果抽象設定において有益な誤り分析が得られることを示す。おもちゃの論理課題では、この手順を再帰的に適用することで、最初から高レベルの仮説を回復する。より広く言えば、本研究の結果は、入力空間の分割が、より精密で、建設的で、かつスケーラブルな機械論的解釈可能性へ向けた有用な一歩であることを示唆する。