MCoT-MVS: 複合画像検索のための多層ビジョン選択を多モーダル思考過程推論で実現する

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

共有:

要点

本論文は、CIR（複合画像検索）のための多層視覚選択フレームワークであるMCoT-MVSを提案する。これは、大規模言語モデルによる多モーダル思考過程推論を活用して、視覚とテキストの理解を導く。
推論手掛かりを用いて、保持テキスト、削除テキスト、およびターゲット推定テキストを生成し、それらが参照画像から判別可能なパッチレベルとインスタンスレベルの意味を抽出する二つの参照視覚アテンションモジュールを導く。
重み付き階層的融合モジュールが、これらの多粒度の視覚手がかりを、修正後のテキストおよび想定ターゲット記述と組み合わせ、クエリをターゲット画像と統一的な埋め込み空間で整合させる。
本手法は CIRR および FashionIQ ベンチマークで最先端の結果を達成し、著者はコードと訓練済みモデルを公開している。

要旨：組み合わせ型画像検索（CIR）は、参照画像と修正されたテキストに基づいてターゲット画像を検索することを目的とします。
しかし、既存の手法は、テキスト修正プロンプトの下でユーザーの意図を最も反映する参照画像から正しい意味的手掛かりを抽出するのにしばしば苦労し、無関係な視覚ノイズによる干渉が生じます。
本論文では、CIRのための新規な Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning (MCoT-MVS) を提案します。これは、推論手掛かりに導かれた、注意機能を備えた多段階の視覚特徴を統合します。
具体的には、MLLMを活用して多模態の複合入力に対してチェーン・オブ・ソート推論を行い、保持テキスト、削除テキスト、およびターゲット推定テキストを生成します。
これらのテキスト手掛かりは、その後、参照画像から判別可能なパッチレベルおよびインスタンスレベルの意味情報を選択的に抽出する2つの参照視覚アテンション選択モジュールを導きます。
最後に、これらの多段階の視覚手掛かりを修正テキストおよび想定ターゲットの説明と効果的に融合するために、重み付き階層結合モジュールを設計し、組み合わせられたクエリを統一埋め込み空間内でターゲット画像と整合させます。
広範な実験は、CIRRとFashionIQという2つのCIRベンチマークに対するもので、提案手法が既存の手法を一貫して上回り、新たな最先端性能を達成することを示しています。コードと学習済みモデルは公開されています。

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

MCoT-MVS: 複合画像検索のための多層ビジョン選択を多モーダル思考過程推論で実現する

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer