UniCVR:アラインメントから再ランキングへ—統一型ゼロショット複合ビジュアル検索

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

要点

  • 本論文は、複合画像検索、多段階(マルチターン)複合画像検索、複合動画検索を対象に、共通の枠組みに基づき統一的に扱う初のゼロショット統一ビジュアル検索フレームワーク「UniCVR」を提案する。
  • UniCVRは、複合クエリ理解にMLLM(マルチモーダル大規模言語モデル)を、構造化されたビジュアル検索にVLP(視覚言語事前学習)モデルを組み合わせ、タスク固有の人手アノテーションデータなしで実現する。
  • ステージIでは、約350万サンプルのマルチソースデータセットを用いたコントラスト学習でMLLMを複合クエリエンコーダとして学習し、クラスタベースのハードネガティブサンプリングにより教師信号を強化する。
  • ステージIIでは、MLLM誘導のデュアルレベル再ランキング機構により、上位候補に対して適応的・予算制約付きのサブセットスコアリングを行い、その関連性シグナルを再スコアリングへ反映して、計算コストを抑えつつ精度を高める。
  • 3タスクすべてをカバーする5つのベンチマークでの実験により、UniCVRが最先端性能と良好な汎化性を示すことが検証され、データとコードは採択後に公開予定だと述べている。

要旨: 合成画像検索、多ターン合成画像検索、合成ビデオ検索はいずれも、共通のパラダイムを共有しています。それは、参照となる視覚情報に修正テキストを組み合わせて、目的のターゲットを検索するという考え方です。この共有された構造にもかかわらず、3つのタスクはこれまで個別に研究されてきました。統一的な枠組みを提案した先行研究はなく、ましてやゼロショット解は提案されていません。本論文では、3つのタスクすべてを、タスク固有の人手による注釈データを一切用いずに同時に扱う、最初の統一型ゼロショット合成ビジュアル検索フレームワークである UniCVR を提案します。UniCVR は、2つの補完的な強みを戦略的に組み合わせます。すなわち、合成的なクエリ理解のためのマルチモーダル・大規模言語モデル(MLLM)と、構造化された視覚検索のための視覚言語事前学習(VLP)モデルです。具体的には、UniCVR は2つの段階で動作します。第I段階では、MLLM を合成クエリエンベッダとして訓練します。約350万サンプルからなる厳選された複数ソースのデータセットに対してコントラスト学習を行い、MLLM と固定化した VLP ギャラリエンコーダとの間の異種なエンベッディング空間を橋渡しします。コントラスト的な教師信号を強化するために、クラスタベースのハードネガティブサンプリング戦略を提案します。第II段階では、MLLM に導かれるデュアルレベルの再ランキング機構を導入します。これは、上位少数の候補に対して、適応的な予算付きサブセットスコアリングを適用し、さらに得られた関連性の信号をデュアルレベルの再スコアリング手法によって活用することで、計算コストを最小限にしつつ、より正確な最終ランキングを生成します。3つすべてのタスクをカバーする5つのベンチマークにわたる大規模な実験により、UniCVR が最先端の性能を達成し、その有効性と汎化性が検証されました。データとコードは採択後に公開します。

UniCVR:アラインメントから再ランキングへ—統一型ゼロショット複合ビジュアル検索 | AI Navigate