すべてのビジョン・トランスフォーマーにレジスタは必要か?クロス・アーキテクチャ的再評価
arXiv cs.LG / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision Transformer(ViT)の注意(attention)マップにおける学習上のアーティファクトに着目し、それらが解釈可能性に与える影響を扱う。
- [CLS]トークン以外にグローバル情報を格納するための空の「レジスタ」トークンを追加するという先行研究を再現し、そのアプローチによって注意マップの明瞭さが改善され得ることを示す。
- DINO、DINOv2、OpenCLIP、DeiT3を含む複数のビジョン・トランスフォーマー系列にわたって汎化性を再評価し、先の主張が普遍的ではないことを見いだす。
- モデルのサイズが結果に与える影響を調査し、小型モデルにまで議論を拡張する。
- また、本論文は元の論文における用語の不一致を解消し、それらの違いがモデル間比較を誤解させ得ることを説明する。



