TTE-CAM: Built-in Class Activation Maps for Test-Time Explainability in Pretrained Black-Box CNNs

arXiv cs.CV / 3/31/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • TTE-CAMは、事前学習済みのブラックボックスCNNを「自己説明可能」なモデルへ変換し、テスト時に忠実な説明(faithful explanations)を生成する枠組みを提案している。
  • 既存手法の「説明の忠実性」と「予測性能」のトレードオフを、分類ヘッド部分の畳み込み置換と元重みからの初期化によって緩和することを狙っている。
  • 置換後もブラックボックスCNNの予測性能を維持しつつ、ポストホック説明手法と同等レベルの説明性能(定性的・定量的)を示すとしている。
  • 医療画像解析のような高リスク領域で、モデルの不透明性が導入障壁になっている点への実用的な解決アプローチとして位置づけられている。
  • 実装コードがGitHubで公開されており、研究・再現・適用を容易にしている。

Abstract

Convolutional neural networks (CNNs) achieve state-of-the-art performance in medical image analysis yet remain opaque, limiting adoption in high-stakes clinical settings. Existing approaches face a fundamental trade-off: post-hoc methods provide unfaithful approximate explanations, while inherently interpretable architectures are faithful but often sacrifice predictive performance. We introduce TTE-CAM, a test-time framework that bridges this gap by converting pretrained black-box CNNs into self-explainable models via a convolution-based replacement of their classification head, initialized from the original weights. The resulting model preserves black-box predictive performance while delivering built-in faithful explanations competitive with post-hoc methods, both qualitatively and quantitatively. The code is available at https://github.com/kdjoumessi/Test-Time-Explainability