要旨: 深層学習モデルは卓越した予測性能を達成する一方で、そのブラックボックス性は透明性と信頼性を制限します。多数の Explainable Artificial Intelligence (XAI) 手法が提案されていますが、それらは主にサリエンシー・マップや概念(すなわち非構造化の解釈性)を提供します。既存のアプローチはしばしば補助的なモデル(例:GPT、CLIP)に依存してモデルの挙動を記述し、元のモデルへの忠実性を損ないます。我々は Interpretability to Explainability (I2X) を提案します。これは、訓練中の選択されたチェックポイントでの進捗を、ポストホック XAI 手法(例:GradCAM)から抽出されたプロトタイプを用いて定量化することにより、非構造化の解釈性から直接構造化された説明を構築するフレームワークです。I2X は「なぜそこを見ているのか」という問いに答えを出すため、訓練中のクラス内およびクラス間の意思決定を構造化された視点で提供します。MNIST および CIFAR-10 を対象とした実験は、I2X がさまざまな画像分類モデルのプロトタイプベースの推論プロセスを明らかにする効果を示しています。さらに、I2X が異なるモデルアーキテクチャとデータセット全体で予測を改善できることを示しています。私たちは I2X が不確かなプロトタイプを識別し、ファインチューニングを最終的に改善するためのサンプルのターゲット付き摂動を用いることが可能であることを示します。したがって、I2X はモデルの挙動を忠実に説明するだけでなく、望ましいターゲットへ向けた最適化を導く実用的なアプローチを提供します。
なぜそこを見るのか? 画像分類の構造化された説明
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、補助的なモデルに依存することなく、非構造化の解釈性から直接構造化された説明を構築するフレームワーク、Interpretability to Explainability (I2X) を紹介し、元のモデルへの忠実性を向上させることを目指します。
- I2X は、訓練中の選択されたチェックポイントで進捗を定量化し、ポストホック XAI 手法(例:GradCAM)から抽出されたプロトタイプを用いることで、クラス内およびクラス間の意思決定の構造化ビューを提供します。
- MNIST および CIFAR-10 を対象とする実験は、I2X がさまざまな画像分類モデルのプロトタイプベースの推論プロセスを明らかにできることを示します。
- さらに、I2X は不確かなプロトタイプの識別と、サンプルのターゲット摂動を用いるファインチューニングにより、異なるアーキテクチャとデータセットでの精度を向上させることができると示しています。