TIPSv2: 強化されたパッチ-テキスト整合でビジョン・言語プリトレーニングを前進させる

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビジョン・言語プリトレーニングにおける重要な制約として、モデルが対応するテキスト埋め込みと密な画像パッチ表現を整合させることが難しい点を調査する。
  • パッチレベル蒸留を導入し、蒸留された学生モデルが教師を上回るパッチ-テキスト整合を達成できることを見出す。
  • マスク画像目的を拡張する改良としてiBOT++を提案し、マスクされていないトークンからの損失寄与を追加することで、パッチ-テキスト整合をさらに強化する。
  • さらに、EMAの設定を変更し、複数の粒度にわたって合成キャプションを活用するキャプションサンプリング戦略を加えることで、訓練の効率と有効性を向上させる。
  • これらの改良をTIPSv2としてまとめ、9タスクおよび20データセットにわたって強力な結果を報告する。幅広い下流用途に向けて、公開コードとモデルも提供する。

Abstract

近年の視覚言語事前学習の進歩により、分類、検索、セグメンテーション、深度予測など、多くの下流コンピュータビジョン応用において大きな改善が可能になりました。しかし、これらのモデルが依然として苦手としている基本的な能力の一つは、対応する概念のテキスト埋め込みと、密なパッチ表現を整合させることです。本研究では、この重要な問題を調査し、基礎となる視覚言語モデルにおいてこの能力を高めるための新しい手法を提案します。まず、パッチレベルの蒸留手順が、密なパッチとテキストの整合を大幅に向上させることを明らかにします。驚くべきことに、蒸留された学生モデルのパッチ—テキスト整合は、教師モデルのそれを強く上回ります。この観察は、事前学習レシピの改変を検討する動機となり、一般に用いられるiBOTのマスク画像目的をアップグレードしたiBOT++を提案します。ここでは、未マスクのトークンも損失に直接寄与します。これにより、事前学習済みモデルのパッチ—テキスト整合が劇的に向上します。さらに、視覚言語事前学習の効率と有効性を高めるために、学習レシピにおける指数移動平均の設定を修正し、異なる粒度の合成キャプションから利益を得るためのキャプションサンプリング戦略も導入します。これらの構成要素を組み合わせることで、幅広い下流アプリケーションに適した新しい画像—テキストエンコーダモデルのファミリーであるTIPSv2を開発します。9つのタスクと20のデータセットに対する包括的な実験により、強い性能を示すことを明らかにします。概ね、最近の視覚エンコーダモデルと同等、あるいはそれよりも良好です。コードとモデルは、プロジェクトページ https://gdm-tipsv2.github.io/ から公開します。