GoldiCLIP:言語—画像事前学習における明示的教師信号のバランスを取るためのGoldilocksアプローチ
arXiv cs.AI / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- GoldiCLIPは、さまざまな教師信号(「Goldilocks」アプローチ)のバランスを取ることを目的とした、視覚—言語事前学習フレームワークであり、単により大規模なデータセットを使うだけでは補えない対照学習(コントラスト)ベースの事前学習の弱点に着目している。
- 3つの要素を組み合わせる:複数の特徴タイプを整合させるための、テキスト条件付き自己蒸留、キャプションのような問いに留まらない汎化性能を高めるVQA目的を備えたエンコーダ—デコーダ構成、そして異種の学習損失をバランスするための不確実性に基づく損失重み付けメカニズム。
- この手法は、わずか3,000万枚の画像(主要アプローチの約300分の1のデータ量)で学習するにもかかわらず、データ効率の高い手法の中では最先端の結果を達成している。最良の比較可能なベースラインに対して、MSCOCOの検索で2.2ポイント、質問ベースの検索で5.9ポイント改善した。
- GoldiCLIPは、10億規模の視覚—言語モデルに対して競争力のある距離を保っており、優れた教師設計と損失バランスが、大規模データ要件を相殺し得ることを示唆している。
- 本研究はarXivの研究発表(リサーチ・アナウンス)として提示されており、詳細と再現性のための資料はプロジェクトページで公開されている。
広告
