Regularizing Attention Scores with Bootstrapping

arXiv cs.LG / 4/3/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical UsageModels & Research

Key Points

  • 本論文は、ViTの注意スコアがほぼ常に非ゼロであることによるノイズや拡散が解釈性を損なっている点に着目し、注意スコアの不確実性を統計的に扱う枠組みを提案しています。
  • 入力特徴をリサンプリングして注意スコアのブートストラップ分布を作り、その分布から有意性(significance)や事後確率(posterior probability)を推定して、正則化された注意スコアを得る「Attention Regularization」を導入しています。
  • 自然画像・医用画像の実験で、ノイズ起因のスプリアスな注意を除去し、shrinkageとsparsityを大きく改善することを示しています。
  • シミュレーションと実データの双方で定量評価を行い、注意スコアを説明として用いる際の実用的な正則化手段としてブートストラップが有効であることを強調しています。
  • コードが公開されており、提案手法を再現・検証しやすい形で提供されています。

Abstract

Vision transformers (ViT) rely on attention mechanism to weigh input features, and therefore attention scores have naturally been considered as explanations for its decision-making process. However, attention scores are almost always non-zero, resulting in noisy and diffused attention maps and limiting interpretability. Can we quantify uncertainty measures of attention scores and obtain regularized attention scores? To this end, we consider attention scores of ViT in a statistical framework where independent noise would lead to insignificant yet non-zero scores. Leveraging statistical learning techniques, we introduce the bootstrapping for attention scores which generates a baseline distribution of attention scores by resampling input features. Such a bootstrap distribution is then used to estimate significances and posterior probabilities of attention scores. In natural and medical images, the proposed \emph{Attention Regularization} approach demonstrates a straightforward removal of spurious attention arising from noise, drastically improving shrinkage and sparsity. Quantitative evaluations are conducted using both simulation and real-world datasets. Our study highlights bootstrapping as a practical regularization tool when using attention scores as explanations for ViT. Code available: https://github.com/ncchung/AttentionRegularization