FIRE-CIR: 合成ファッション画像検索のためのきめ細かな推論

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FIRE-CIRは、テキスト指示から「保持すべき視覚属性」と「変更すべき視覚属性」を判断するために、きめ細かな構成的推論を追加することで、合成画像検索に取り組み、ファッション特有の設定で精度と解釈可能性の両方を向上させます。
  • 埋め込み類似度のみに依存するのではなく、モデルは変更テキストから属性に焦点を当てた視覚的な質問を生成し、参照画像と候補画像の両方に対して視覚的根拠を確認します。
  • このアプローチは、新しく構築した大規模なファッション向けビジュアル質問応答データセットを用いて学習されます。このデータセットは、単一画像または2画像の解析を必要とする質問を含みます。
  • Fashion IQベンチマークでは、FIRE-CIRは最先端手法よりも高い検索精度を達成し、特定の候補が再ランキングまたはフィルタリングされる理由について、属性レベルの説明可能な根拠を提供します。

概要: 合成画像検索(CIR)は、参照画像がテキストによる記述で修正された様子を表す目標画像を取得することを目的とします。近年の視覚言語モデル(VLM)は、画像とテキストを検索用の共通空間に埋め込むことで、CIRにおいて有望な性能を達成しています。しかしそれらはしばしば、「何を保持し、何を変更するか」を推論することに失敗します。この制約は解釈可能性を損ない、特にファッションのような細粒度な領域では、結果が最適でないものになります。本論文では、ファッションCIRに合成的推論と解釈可能性をもたらすモデルであるFIRE-CIRを提案します。埋め込みの類似度のみに依存するのではなく、FIRE-CIRは「質問主導」の視覚推論を行います。具体的には、修正テキストから導出される属性に焦点を当てた視覚質問を自動生成し、それに対応する視覚的証拠を参照画像と候補画像の両方で検証します。このような推論システムを訓練するために、単一画像または二重画像のいずれかの解析を要する質問を含む、大規模なファッション特化のビジュアル質問応答データセットを自動構築します。検索時、提案モデルはこの明示的な推論を用いて候補結果を再順位付けし、意図された修正と整合しない画像を除外します。Fashion IQベンチマークでの実験結果は、FIRE-CIRが検索精度において最先端手法を上回ることを示します。また、検索判断に対して、解釈可能で属性レベルの洞察も提供します。