DINO-QPM:視覚基盤モデルをグローバルに解釈可能な画像分類へ適応する
arXiv cs.CV / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DINO-QPMという軽量な解釈可能性アダプタを提案し、Quadratic Programming Enhanced Model(QPM)によってDINOv2のような視覚基盤モデルの特徴を、クラス非依存でグローバルに解釈可能な表現へ変換する。
- 標準のCLSトークン経路に依存する代わりに、DINO-QPMは平均プーリングを用いてパッチ埋め込みを解釈可能な特徴へ接続し、入力に対する説明の空間的な局在化を可能にする。
- 空間的な散らばりや背景ノイズを抑えるためのスパース性損失を追加し、関連する物体の部位に説明を根付けることを目指す(無関係な領域ではなく)。
- この手法は、厳密に凍結したDINOバックボーン上でQPMを適用し、分類精度と説明の質の両方でDINOv2の線形プロービングより改善した結果を報告する。
- 評価では、新たに導入したPlausibility(尤もらしさ)指標に加えて他の解釈可能性指標も用い、DINO-QPMが高品質な説明を生成しつつ強い性能を維持することを示す。


