すべてのビジョン・トランスフォーマーにレジスタは必要か？クロス・アーキテクチャ的再評価

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Vision Transformer（ViT）の注意（attention）マップにおける学習上のアーティファクトに着目し、それらが解釈可能性に与える影響を扱う。
[CLS]トークン以外にグローバル情報を格納するための空の「レジスタ」トークンを追加するという先行研究を再現し、そのアプローチによって注意マップの明瞭さが改善され得ることを示す。
DINO、DINOv2、OpenCLIP、DeiT3を含む複数のビジョン・トランスフォーマー系列にわたって汎化性を再評価し、先の主張が普遍的ではないことを見いだす。
モデルのサイズが結果に与える影響を調査し、小型モデルにまで議論を拡張する。
また、本論文は元の論文における用語の不一致を解消し、それらの違いがモデル間比較を誤解させ得ることを説明する。

Abstract

Vision Transformer（ViT）の学習には、いくつかの大きな課題があり、その一つは注意マップ中にアーティファクトが出現することであり、これが解釈可能性を妨げます。Darcetら（2024）はこの現象を調査し、[CLS]トークン以外に、ViTがグローバル情報を保持する必要があることに起因すると考察しました。彼らは、register（レジスター）と名付けられた空の入力トークンを追加するという新しい解決策を提案し、これによりアーティファクトがうまく解消され、注意マップの明瞭さが向上することを示しました。本研究では、Darcetら（2024）の結果を再現するとともに、DINO、DINOv2、OpenCLIP、DeiT3 を含む複数のモデルにわたって、彼らの主張がどの程度一般化可能かを評価します。いくつかの重要な主張の妥当性は確認できたものの、いくつかの主張は他のモデルに対して普遍的に拡張できないことが、私たちの結果から明らかになりました。さらに、モデルサイズの影響も調べ、彼らの知見をより小さなモデルへと拡張します。最後に、元論文に見られる用語の不整合を解きほぐし、それがより幅広いモデルに一般化する際に与える影響を説明します。