ローカルからグローバルへ、そしてメカニスティックへ:iERFを中心とした視覚モデル解釈の統一フレームワーク

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PFV(pointwise feature vector)とインスタンス固有の有効受容野(iERF)を単一の分析単位として、視覚モデルの解釈可能性をローカル・グローバル・メカニスティックの観点で統一するiERF中心の枠組みを提案する。
  • 共有比分解(SRD)により、各PFVを上流のPFVの混合として表現し、iERFを伝播させることで、操作やノイズに対して頑健で、活性に忠実なクラス識別的サリiencyマップを生成する。
  • グローバルな解釈として、iERFをセマンティックラベルとして用いるConcept-Anchored Feature Explanation(CAFE)を提案し、疎な自己符号化器(SAE)の潜在特徴を、画素レベルで検証可能な証拠に結び付ける。
  • 深さ方向で表現がどのように組み立てられるかを明らかにするため、層間コンセプトグラフと層間コンセプト帰属(ICAT)を導入し、層対を切り分けつつ概念間の影響を定量化する。
  • ResNet50、VGG16、ViTでの実験では、ベースラインよりも忠実性と頑健性が向上し、分散したSAE特徴の解釈や、正解・誤分類・敵対例における主要な概念経路の可視化が可能になることを示す。

Abstract

現代の視覚モデルは目覚ましい精度を達成していますが、証拠がどこから生まれるのか、モデルが何をエンコードしているのか、そして内部計算がその証拠をどのように組み立てるのかを説明することは、いまだ断片的です。私たちは、単一の分析単位である点ごとの特徴ベクトル(PFV)と、それに対応するインスタンス固有の有効受容野(iERF)を軸に、局所的・大域的・機構的解釈可能性を統一する、iERF中心の枠組みを提案します。局所側では、共有比分解(SRD)により、各PFVを共有比を通じて上流のPFVの混合として表現し、iERFを伝播させてクラス識別的なサリエンシーマップを構築します。SRDは、高解像度で、活性に忠実な説明を提供し、標的操作やノイズに対して頑健であり、一般的な非線形性に対して活性非依存のままです。大域的な見通しとしては、iERFを意味ラベルとして利用し、抽象的な潜在ベクトルを検証可能なピクセルレベルの証拠に結び付ける概念アンカー付き特徴説明(CAFE)を導入します。CAFEにより、非局在化したスパースオートエンコーダ(SAE)の潜在変数--特に、初期の自己注意が遠距離の文脈を混ぜ合わせるTransformerにおいて--という課題に取り組みます。表現が深さによってどのように構成されるのかに答えるために、層間概念グラフと層間概念帰属(ICAT)を提案します。これは、層のペアを分離しつつ概念から概念への影響を定量化します。層間への挿入・削除のプロトコルにより、積分勾配(Integrated Gradients)が最も忠実な具現化であることを特定します。実験的に、ResNet50、VGG16、およびViTにおいて、私たちの枠組みは忠実度と頑健性の両面でベースラインを上回り、分散したSAE特徴をうまく解釈し、正しく分類された事例、誤分類された事例、敵対的事例のいずれにおいても支配的な概念ルートを明らかにします。iERFに基づくことで、私たちの手法はピクセルから概念、そして決定へと至る一貫した、証拠に裏付けられたマップを提供します。