広告

自己教師ありトランスフォーマにおける分散型のオブジェクト中心的特性の発見

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、(DINOなどの)自己教師ありのVision Transformerが、[CLS]トークンの注意(attention)に依存する場合に物体をうまく局在化できない理由を検討し、画像レベルの要約のために学習された[CLS]が、オブジェクト中心的な信号を希釈してしまうと主張している。
  • 著者らは、全層にわたる注意成分(query, key, value)から算出されるパッチ間の類似度を分析することで、オブジェクト中心的な特性がq/k/v由来の類似度マップに符号化されており、最終層に限定されないことを見出す。
  • 本研究は、パッチ類似度に基づいて層をまたいで注意ヘッドをクラスタリングすることで、画像内の物体を表すオブジェクト中心的クラスタを自動的に特定する、学習不要(training-free)の手法Object-DINOを提案する。
  • 実験の結果、Object-DINOは教師なしの物体発見性能を改善(CorLocの向上が+3.6〜+12.4)し、視覚的グラウンディングを通じてマルチモーダル大規模言語モデルにおける物体の幻覚を低減する。
  • 総合すると、本結果は、自己教師ありトランスフォーマから分散型のオブジェクト中心的情報を抽出することで、追加の学習なしに下流タスクを向上できることを示唆している。

Abstract

DINOのような自己教師ありビジョントランス(ViT)は、一般に最終層の[CLS]トークンの注意(attention)マップに現れる形で、対象物を発見する創発的能力を示すことが知られています。しかし、これらのマップにはしばしば、対象物のローカライズ(位置特定)を不十分にするような紛れ込みの活性が含まれます。これは、画像レベルの目的で学習された[CLS]トークンが、対象物に焦点を当てるのではなく、画像全体を要約してしまうためです。この集約により、局所的なパッチレベルの相互作用に存在する対象物中心の情報が薄まります。私たちは、全層にわたるパッチレベルの注意構成要素(query、key、value)を用いてパッチ間の類似度を計算することで、この点を分析します。その結果、(1) 先行研究がキー特徴のみ、あるいは[CLS]トークンのみを用いていたのとは異なり、対象物中心の性質は3つの構成要素(q, k, v)すべてから導かれる類似度マップに符号化されていることが分かりました。(2) この対象物中心の情報は、最終層に限られているのではなく、ネットワーク全体に分散していることが分かりました。これらの洞察に基づき、分散した対象物中心情報を抽出する、学習不要(training-free)の手法であるObject-DINOを提案します。Object-DINOは、各層すべての注意ヘッドを、そのヘッドのパッチ同士の類似度に基づいてクラスタリングし、すべての対象物に対応する対象物中心のクラスタを自動的に同定します。2つの応用においてObject-DINOの有効性を示します。すなわち、教師なし対象物発見の強化(+3.6から+12.4のCorLoc向上)と、視覚的グラウンディングを提供することでマルチモーダル大規模言語モデルにおける対象物の幻覚(object hallucination)を軽減することです。私たちの結果は、この分散した対象物中心情報を用いることで、追加の学習なしに下流タスクが改善されることを示しています。

広告