FBCIR: 構成画像検索におけるクロスモーダルフォーカスのバランス
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚入力とテキスト入力の間のフォーカスの不均衡を、ハードネガティブにおけるCIRの失敗の主要な原因として特定する。
- FBCIRを提案する。モデルの決定の背後にある重要な視覚的およびテキスト入力要素を特定する、マルチモーダルなフォーカス解釈手法。
- 複数のCIRモデルにおいて、フォーカスの不均衡が蔓延しており、特にハードネガティブ設定の下で顕著であることを示す。
- CIRデータセットに、バランスの取れたクロスモーダル推論を促すよう設計されたキュレーション済みのハードネガティブを追加するデータ拡張ワークフローを提案する。これにより、難しいケースでの性能を向上させつつ、標準ベンチマークでの性能を維持する。
構成画像検索(CIR)には、視覚的内容とテキスト-画像入力ペアに含まれる意味的修正を共同で推論するための多モーダルモデルが必要である。現在のCIRモデルは一般的なベンチマークケースで高い性能を達成している一方で、ネガティブ候補がクエリ画像やテキストと意味的に整合するようなより挑戦的な状況では、正確性が低下することが多い。本稿では、この劣化を、モデルがあるモダリティに過度に注意を払い、もう一方を無視するフォーカスの不均衡に起因すると説明する。この主張を検証するために、FBCIRを提案する。FBCIRは、モデルの検索決定に対して最も重要な視覚的およびテキスト入力要素を特定する、マルチモーダルなフォーカス解釈手法である。FBCIRを用いて、フォーカスの不均衡は既存のCIRモデルで蔓延しており、特にハードネガティブ設定下で顕著であることを報告する。分析に基づき、既存のCIRデータセットを、バランスの取れたクロスモーダル推論を促すよう設計されたキュレーション済みのハードネガティブを含むデータ拡張ワークフローをさらに提案する。複数のCIRモデルにわたる広範な実験は、提案された拡張が難しいケースで一貫して性能を改善することを示しつつ、標準ベンチマークでの能力を維持する。総じて、我々の解釈手法とデータ拡張ワークフローは、CIRモデルの診断と頑健性の向上に新しい視点を提供する。