ゼロアブレーションはDINOビジョントランスフォーマーにおけるレジスタ・コンテンツ依存を過大評価している
arXiv cs.CV / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ゼロアブレーション(トークン活性をゼロベクトルに置き換える)の一般的な手法が、DINOv2+/DINOv3において「レジスタの正確なコンテンツ」への依存度を過大評価し得ることを本研究が示した。
- 平均置換、ノイズ置換、画像間でのレジスタシャッフルといった複数の置換コントロールでは、分類・対応付け・セグメンテーションの性能が元のベースラインからおおむね約1ポイント以内に維持されたが、ゼロ化はそれより大きな性能低下を引き起こした。
- パッチごとのコサイン類似度の分析により、置換はいずれも内部表現を摂動する一方で、ゼロ化は特に大きな変化を与えており、観測されたタスク劣化と整合することが示された。
- 著者らは、フローズン特徴量の評価では、性能は「画像固有のレジスタ値そのもの」よりも「もっともらしいレジスタ様の活性」に依存するとの結論を述べた。
- さらに、レジスタは[CLS]依存のバッファとして機能し、圧縮されたパッチ幾何と関連することが示され、ViT-Bスケールでも主要結果が再現されたと報告された。



