「良いりんご」を仕分ける:因果アブストラクションの診断と改善のための手法
arXiv cs.AI / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、提案された解釈が特に忠実に成り立つ入力部分空間を特定することで、ニューラルネットの解釈を診断する手法を提案する。
- 因果アブストラクションの評価を、単一の「介在(interchange)介入精度」というグローバル指標から、ペアごとの介入挙動に基づいて入力空間を「よく解釈できる領域/解釈しにくい領域」に分割して評価する枠組みに改良する。
- これにより、解釈が機能するかどうかだけでなく、どこで成功しどこで失敗するのか、そして両者を分ける要因は何かを明らかにでき、因果アブストラクションがより診断的になる。
- 高レベル仮説の不足した区別の特定、未モデリングの中間変数の発見、相補的な部分解釈の統合といった、実用的な解釈改善のヒューリスティックも提示する。
- 4ステップのレシピとして具体化され、複数の因果アブストラクション設定で有益な誤り分析を行えることが示され、さらにおもちゃの論理課題では再帰的適用により高レベル仮説をゼロから回復できる。




