TIPSv2: 強化されたパッチ-テキスト整合でビジョン・言語プリトレーニングを前進させる
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビジョン・言語プリトレーニングにおける重要な制約として、モデルが対応するテキスト埋め込みと密な画像パッチ表現を整合させることが難しい点を調査する。
- パッチレベル蒸留を導入し、蒸留された学生モデルが教師を上回るパッチ-テキスト整合を達成できることを見出す。
- マスク画像目的を拡張する改良としてiBOT++を提案し、マスクされていないトークンからの損失寄与を追加することで、パッチ-テキスト整合をさらに強化する。
- さらに、EMAの設定を変更し、複数の粒度にわたって合成キャプションを活用するキャプションサンプリング戦略を加えることで、訓練の効率と有効性を向上させる。
- これらの改良をTIPSv2としてまとめ、9タスクおよび20データセットにわたって強力な結果を報告する。幅広い下流用途に向けて、公開コードとモデルも提供する。




