Feature Attribution Stability Suite：事後（ポストホック）アトリビューションはどれほど安定しているのか？

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、現実的な入力摂動下で事後（ポストホック）の特徴アトリビューション手法がどれほど安定しているかをベンチマークするために、Feature Attribution Stability Suite（FASS）を提案し、予測の変化を制御します。
FASSは、単一のスカラー指標に依存するのではなく、予測不変性（prediction-invariance）のフィルタリングを追加し、安定性を構造的類似性、順位相関（rank correlation）、top-k Jaccardの重なりで分解することで評価を改善します。
Integrated Gradients、GradientSHAP、Grad-CAM、LIMEを対象にした実験では、安定性は摂動ファミリによって大きく異なり、幾何学的な摂動は写真（フォトメトリック）的な摂動よりもアトリビューションの不安定性がはるかに大きいことが示されます。
予測保存（prediction preservation）を条件付けしない場合、本研究では評価したアトリビューション対の最大99%が予測の変更を伴うことを見出しており、多くの先行研究の「安定性」結果が、説明の脆さとモデルの感度を混同している可能性があることを示唆します。
制御された評価の下では、Grad-CAMが、4つのアーキテクチャにわたってImageNet-1K、MS COCO、CIFAR-10のすべてで、最も一貫して安定したアトリビューションパターンを示します。