概要: 事前学習済みの視覚言語モデル(VLMs)はマルチモーダル課題において優れた性能を発揮し、一般的に画像を埋め込みベクトルとしてエンコードし、データベースへの保存や、近似最近傍探索(ANNS)による検索を通じて利用します。しかし、これらのモデルは、構成的(コンポジショナル)なクエリや、分布外(OOD)の画像・テキストの組に対しては苦手です。人間の認知が最小限の例から学習できるという点に着想を得て、私たちは、画像検索のために特化して設計された少数ショット学習アプローチによって、この性能ギャップに取り組みます。私たちは、新しいFew-Shot Text-to-Image Retrieval(FSIR)タスクと、それに付随するベンチマークデータセット FSIR-BD を導入します。FSIR-BDは、参照例を伴うテキストによる画像検索を明示的に対象とし、難しい構成的およびOODクエリに焦点を当てた、最初のデータセットです。構成的な部分は、都市シーンと自然の種(ネイチャースピーシーズ)に分けられ、いずれも特定の状況下で、あるいは特徴が際立つ形で提示されます。FSIR-BD は 38,353 枚の画像と 303 のクエリを含み、テスト用コーパスの 82% は含まれています(クエリあたりの平均で、37 個のポジティブ=正解一致と、多数のハードネガティブを含む)。残りの 18% は、代表例(エクセンプレー)としてのポジティブ画像とハードネガティブ画像からなる少数ショット参照コーパス(FSR)を構成します。さらに、FSRに含まれる単一ショットまたは少数ショットの参照例を活用することで性能を改善する、2つの新しい検索最適化手法を提案します。これらの手法はいずれも任意の事前学習済み画像エンコーダと互換性があり、既存の大規模環境にも適用可能です。実験の結果、次が示されます。(1)FSIR-BD は画像検索に対する難しいベンチマークを提供する;そして(2)提案する最適化手法は、平均適合率(mAP)で測ると、既存のベースラインよりも優れた性能を上回る。FSIRの最適化手法に関するさらなる研究は、特に限られた例からの構成的推論において、機械と人間のレベルの理解のギャップを縮めるのに役立つでしょう。
Few Shots Text to Image Retrieval:新しいベンチマークデータセットと最適化手法
arXiv cs.CV / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、合成的(compositional)かつ分布外(OOD)の画像—テキストクエリ対に対して、事前学習済みの視覚言語モデルが抱える弱点を解決するための、新しいFew-Shot Text-to-Image Retrieval(FSIR)ベンチマーク課題を提案する。
- 画像検索のために明示的に設計された最初のデータセットであるFSIR-BDを公開する。これは、テキストに加えて参照となる例画像を用いるもので、合成的サブセット2種類(都市の風景と自然の種)を扱い、難しいネガティブ(hard negatives)を重視する。
- FSIR-BDには38,353枚の画像と303件のクエリが含まれている。大部分のクエリは、大規模なテストコーパス(多くのポジティブおよび難しいネガティブを含む)に対して評価され、残りのクエリは、エキザンプルとしてのポジティブと難しいネガティブから成るfew-shot参照セット(FSR)を構成するために用いられる。
- 著者らは、FSRから単発(single-shot)またはfew-shotの参照例を用いる、新しい検索最適化手法を2つ提案する。これらは、任意の事前学習済み画像エンコーダと互換である。
- 実験により、FSIR-BDが挑戦的なベンチマークであること、ならびに提案手法が平均適合率(mAP)によって測定される検索品質において、既存のベースラインよりも改善することを示す。
