要旨: 視覚トランスフォーマー(ViT)は入力特徴に重みを付けるための注意(attention)メカニズムに依存しており、そのため注意スコアは意思決定プロセスの説明として自然に考えられてきました。ですが、注意スコアはほとんどの場合ゼロではなく、その結果ノイズを含み拡散した注意マップとなり、解釈可能性が制限されます。注意スコアの不確実性指標を定量化し、正則化された注意スコアを得ることはできるでしょうか。この目的のために、独立したノイズがあると、重要ではないもののゼロではないスコアにつながるという状況を想定した統計的枠組みにおいて、ViTの注意スコアを考えます。統計的学習手法を活用して、入力特徴を再標本化することで注意スコアの基準となる分布を生成する、注意スコアに対するブートストラップを提案します。このブートストラップ分布を用いて、注意スコアの有意性と事後確率を推定します。自然画像および医療画像において、提案する\emph{Attention Regularization} アプローチは、ノイズに起因する紛らわしい(spurious)注意を単純に除去することを示し、収縮(shrinkage)と疎性(sparsity)を劇的に改善します。定量評価は、シミュレーションと実世界のデータセットの両方を用いて行います。本研究は、ViTにおいて注意スコアを説明として用いる際の実用的な正則化ツールとして、ブートストラップを強調します。
コード利用可能: https://github.com/ncchung/AttentionRegularization
ブートストラップによる注意スコアの正則化
arXiv cs.LG / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ViTの注意スコアがほぼ常に非ゼロであることによるノイズや拡散が解釈性を損なっている点に着目し、注意スコアの不確実性を統計的に扱う枠組みを提案しています。
- 入力特徴をリサンプリングして注意スコアのブートストラップ分布を作り、その分布から有意性(significance)や事後確率(posterior probability)を推定して、正則化された注意スコアを得る「Attention Regularization」を導入しています。
- 自然画像・医用画像の実験で、ノイズ起因のスプリアスな注意を除去し、shrinkageとsparsityを大きく改善することを示しています。
- シミュレーションと実データの双方で定量評価を行い、注意スコアを説明として用いる際の実用的な正則化手段としてブートストラップが有効であることを強調しています。
- コードが公開されており、提案手法を再現・検証しやすい形で提供されています。



