Abstract
DINOのような自己教師ありビジョントランス(ViT)は、一般に最終層の[CLS]トークンの注意(attention)マップに現れる形で、対象物を発見する創発的能力を示すことが知られています。しかし、これらのマップにはしばしば、対象物のローカライズ(位置特定)を不十分にするような紛れ込みの活性が含まれます。これは、画像レベルの目的で学習された[CLS]トークンが、対象物に焦点を当てるのではなく、画像全体を要約してしまうためです。この集約により、局所的なパッチレベルの相互作用に存在する対象物中心の情報が薄まります。私たちは、全層にわたるパッチレベルの注意構成要素(query、key、value)を用いてパッチ間の類似度を計算することで、この点を分析します。その結果、(1) 先行研究がキー特徴のみ、あるいは[CLS]トークンのみを用いていたのとは異なり、対象物中心の性質は3つの構成要素(q, k, v)すべてから導かれる類似度マップに符号化されていることが分かりました。(2) この対象物中心の情報は、最終層に限られているのではなく、ネットワーク全体に分散していることが分かりました。これらの洞察に基づき、分散した対象物中心情報を抽出する、学習不要(training-free)の手法であるObject-DINOを提案します。Object-DINOは、各層すべての注意ヘッドを、そのヘッドのパッチ同士の類似度に基づいてクラスタリングし、すべての対象物に対応する対象物中心のクラスタを自動的に同定します。2つの応用においてObject-DINOの有効性を示します。すなわち、教師なし対象物発見の強化(+3.6から+12.4のCorLoc向上)と、視覚的グラウンディングを提供することでマルチモーダル大規模言語モデルにおける対象物の幻覚(object hallucination)を軽減することです。私たちの結果は、この分散した対象物中心情報を用いることで、追加の学習なしに下流タスクが改善されることを示しています。