DINO-QPM:視覚基盤モデルをグローバルに解釈可能な画像分類へ適応する

arXiv cs.CV / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DINO-QPMという軽量な解釈可能性アダプタを提案し、Quadratic Programming Enhanced Model(QPM)によってDINOv2のような視覚基盤モデルの特徴を、クラス非依存でグローバルに解釈可能な表現へ変換する。
  • 標準のCLSトークン経路に依存する代わりに、DINO-QPMは平均プーリングを用いてパッチ埋め込みを解釈可能な特徴へ接続し、入力に対する説明の空間的な局在化を可能にする。
  • 空間的な散らばりや背景ノイズを抑えるためのスパース性損失を追加し、関連する物体の部位に説明を根付けることを目指す(無関係な領域ではなく)。
  • この手法は、厳密に凍結したDINOバックボーン上でQPMを適用し、分類精度と説明の質の両方でDINOv2の線形プロービングより改善した結果を報告する。
  • 評価では、新たに導入したPlausibility(尤もらしさ)指標に加えて他の解釈可能性指標も用い、DINO-QPMが高品質な説明を生成しつつ強い性能を維持することを示す。

Abstract

DINOv2 のような視覚基盤モデルは特徴抽出器として最先端の性能を提供しますが、その複雑で高次元な表現は解釈可能性の面で大きな障壁になります。本研究では、これらの強力だが絡み合った特徴を、人間が解釈可能な対照的でクラス非依存の表現へ変換する DINO-QPM を提案します。DINO-QPM は軽量な解釈可能性アダプタであり、厳密に凍結した DINO バックボーン上で動作するように、二次計画法強化モデル(QPM)を適応しつつ、グローバルに解釈可能な画像分類を追求します。視覚基盤モデルによる分類では通常 \texttt{CLS} トークンが用いられますが、我々はあえてこの標準から逸脱します。平均プーリングを活用することで、パッチ埋め込みをモデルの特徴へ直接結び付け、したがって入力空間内において DINO-QPM のグローバルに解釈可能な特徴の空間的な局在化を可能にします。さらに、空間的な散らばりや背景ノイズを最小化するためにスパース性損失を適用し、説明が関連する対象物の部位に根ざすようにします。DINO-QPM により、QPM の解釈可能性の水準をアダプタとして利用できるようにしつつ、DINOv2 の線形プローブの精度を上回ります。導入した Plausibility 指標およびその他の解釈可能性指標によって評価した結果、広範な実験により、DINO-QPM は凍結した視覚基盤モデルに対して適用可能な他の手法よりも、分類精度と説明品質の両面で優れていることが示されます。