要旨:組み合わせ型画像検索(CIR)は、参照画像と修正されたテキストに基づいてターゲット画像を検索することを目的とします。
しかし、既存の手法は、テキスト修正プロンプトの下でユーザーの意図を最も反映する参照画像から正しい意味的手掛かりを抽出するのにしばしば苦労し、無関係な視覚ノイズによる干渉が生じます。
本論文では、CIRのための新規な Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning (MCoT-MVS) を提案します。これは、推論手掛かりに導かれた、注意機能を備えた多段階の視覚特徴を統合します。
具体的には、MLLMを活用して多模態の複合入力に対してチェーン・オブ・ソート推論を行い、保持テキスト、削除テキスト、およびターゲット推定テキストを生成します。
これらのテキスト手掛かりは、その後、参照画像から判別可能なパッチレベルおよびインスタンスレベルの意味情報を選択的に抽出する2つの参照視覚アテンション選択モジュールを導きます。
最後に、これらの多段階の視覚手掛かりを修正テキストおよび想定ターゲットの説明と効果的に融合するために、重み付き階層結合モジュールを設計し、組み合わせられたクエリを統一埋め込み空間内でターゲット画像と整合させます。
広範な実験は、CIRRとFashionIQという2つのCIRベンチマークに対するもので、提案手法が既存の手法を一貫して上回り、新たな最先端性能を達成することを示しています。コードと学習済みモデルは公開されています。
MCoT-MVS: 複合画像検索のための多層ビジョン選択を多モーダル思考過程推論で実現する
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- 本論文は、CIR(複合画像検索)のための多層視覚選択フレームワークであるMCoT-MVSを提案する。これは、大規模言語モデルによる多モーダル思考過程推論を活用して、視覚とテキストの理解を導く。
- 推論手掛かりを用いて、保持テキスト、削除テキスト、およびターゲット推定テキストを生成し、それらが参照画像から判別可能なパッチレベルとインスタンスレベルの意味を抽出する二つの参照視覚アテンションモジュールを導く。
- 重み付き階層的融合モジュールが、これらの多粒度の視覚手がかりを、修正後のテキストおよび想定ターゲット記述と組み合わせ、クエリをターゲット画像と統一的な埋め込み空間で整合させる。
- 本手法は CIRR および FashionIQ ベンチマークで最先端の結果を達成し、著者はコードと訓練済みモデルを公開している。


