ローカルからグローバルへ、そしてメカニスティックへ:iERFを中心とした視覚モデル解釈の統一フレームワーク
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、PFV(pointwise feature vector)とインスタンス固有の有効受容野(iERF)を単一の分析単位として、視覚モデルの解釈可能性をローカル・グローバル・メカニスティックの観点で統一するiERF中心の枠組みを提案する。
- 共有比分解(SRD)により、各PFVを上流のPFVの混合として表現し、iERFを伝播させることで、操作やノイズに対して頑健で、活性に忠実なクラス識別的サリiencyマップを生成する。
- グローバルな解釈として、iERFをセマンティックラベルとして用いるConcept-Anchored Feature Explanation(CAFE)を提案し、疎な自己符号化器(SAE)の潜在特徴を、画素レベルで検証可能な証拠に結び付ける。
- 深さ方向で表現がどのように組み立てられるかを明らかにするため、層間コンセプトグラフと層間コンセプト帰属(ICAT)を導入し、層対を切り分けつつ概念間の影響を定量化する。
- ResNet50、VGG16、ViTでの実験では、ベースラインよりも忠実性と頑健性が向上し、分散したSAE特徴の解釈や、正解・誤分類・敵対例における主要な概念経路の可視化が可能になることを示す。



