GoldiCLIP:言語—画像事前学習における明示的教師信号のバランスを取るためのGoldilocksアプローチ

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GoldiCLIPは、さまざまな教師信号(「Goldilocks」アプローチ)のバランスを取ることを目的とした、視覚—言語事前学習フレームワークであり、単により大規模なデータセットを使うだけでは補えない対照学習(コントラスト)ベースの事前学習の弱点に着目している。
  • 3つの要素を組み合わせる:複数の特徴タイプを整合させるための、テキスト条件付き自己蒸留、キャプションのような問いに留まらない汎化性能を高めるVQA目的を備えたエンコーダ—デコーダ構成、そして異種の学習損失をバランスするための不確実性に基づく損失重み付けメカニズム。
  • この手法は、わずか3,000万枚の画像(主要アプローチの約300分の1のデータ量)で学習するにもかかわらず、データ効率の高い手法の中では最先端の結果を達成している。最良の比較可能なベースラインに対して、MSCOCOの検索で2.2ポイント、質問ベースの検索で5.9ポイント改善した。
  • GoldiCLIPは、10億規模の視覚—言語モデルに対して競争力のある距離を保っており、優れた教師設計と損失バランスが、大規模データ要件を相殺し得ることを示唆している。
  • 本研究はarXivの研究発表(リサーチ・アナウンス)として提示されており、詳細と再現性のための資料はプロジェクトページで公開されている。

Abstract

従来、大規模な視覚言語モデル(VLMs)の成功は主に、数十億サンプル規模のデータセットに依存しており、これが進歩の大きな障壁となっていました。最新の研究では、教師信号の品質を改善することでこのギャップを埋め始めていますが、それらはいずれも対照学習(contrastive pretraining)における弱点の一部にしか対処していません。私たちは、適切な教師信号のバランスを見つけるというゴルディロックスの原理に基づいて構築された枠組み「GoldiCLIP」を提示します。私たちの多面的な学習フレームワークは、3つの主要な革新を相乗的に組み合わせます:(1) テキスト条件付きの自己蒸留手法により、テキスト非依存およびテキスト依存の両方の特徴を整合させること;(2) エンコーダに統合されたデコーダと、Visual Question Answering(VQA)目的を用いることで、エンコーダがキャプションのようなクエリを超えて汎化できるようにすること;(3) 不確実性に基づく重み付けメカニズムにより、すべての異種(heterogeneous)な損失を自動的にバランスさせること。GoldiCLIPは、主要手法よりもデータを300倍少ないわずか3,000万枚の画像で学習されており、データ効率の高いアプローチの中で最先端の性能を達成しています。MSCOCOの検索で比較可能な最良ベースラインより2.2ポイント、きめ細かな検索で2.0ポイント、質問に基づく検索で5.9ポイント改善しつつ、数十億規模のモデルとも競争力を維持しています。プロジェクトページ: https://petsi.uk/goldiclip.
広告