意味検索を超えて:複合画像検索における参照アンカーリングへ

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複合画像検索(CIR)が意味の類似性に過度に最適化されることが多いため、異なる文脈においてもユーザーが指定した「同一の具体的なインスタンス」を一貫して取得できないと主張する。
  • そこで、広範な意味ではなくインスタンス単位の一貫性に焦点を当てた、より厳密なきめ細かい検索課題として Object-Anchored Composed Image Retrieval(OACIR)を提案する。
  • OACIR の研究を支えるため、著者らは OACIRR という新しい大規模・多ドメインのベンチマークを構築する。160K 超のクエリ四つ組、4つの候補ギャラリー、そしてハードネガティブのインスタンス・ディストラクタを含む。
  • 本ベンチマークは、各合成クエリを境界ボックスで拡張し、参照画像内でターゲット対象物をアンカーすることで、正確なインスタンス保持を可能にする。
  • 課題に対して著者らは AdaFocal を提案する。文脈に応じた注意(attention)モジュレータにより、アンカーされたインスタンス領域を強調しつつ、それを周囲の合成的な文脈とのバランスとることで、既存モデルに対して強い改善を報告する。

要旨: 合成画像検索(CIR)は、参照画像と修正テキストを組み合わせた柔軟なマルチモーダルクエリを可能にすることで、大きな可能性を示してきました。しかし、CIRは本質的に意味のマッチングを優先してしまうため、文脈をまたいでユーザーが指定した特定のインスタンスを確実に取得することが難しいという課題があります。実務においては、広い意味の整合よりも具体的なインスタンスの忠実性を重視することの方が、しばしばより重要になります。本研究では、厳密なインスタンスレベルの一貫性を要求する、新しいきめ細かな検索タスクであるObject-Anchored Composed Image Retrieval(OACIR)を提案します。このタスクの研究を推進するために、OACIRR(実世界画像におけるOACIR)を構築します。これは、160K超のクアドリプルを含み、さらに難しいネガティブ・インスタンスの撹乱要素で強化された4つの挑戦的な候補ギャラリーから成る、初の大規模・マルチドメインのベンチマークです。各クアドリプルは、参照画像内で対象物を視覚的にアンカーするバウンディングボックスを合成クエリに追加することで、インスタンスの保持を確実にするための、正確で柔軟な方法を提供します。OACIRタスクに対処するために、AdaFocalを提案します。AdaFocalは、指定されたインスタンス領域内で注意を適応的に強める、文脈認識型アテンション・モジュレータを備えたフレームワークであり、アンカーされたインスタンスと、より広い合成的文脈との間で焦点を動的にバランスさせます。大規模な実験により、AdaFocalは既存の合成検索モデルを大幅に上回ることが示されました。特に、インスタンスレベルの忠実性を維持する点で優れており、この難しいタスクに対する堅牢なベースラインを確立すると同時に、インスタンスを意識した、より柔軟な検索システムに向けた新しい方向性を切り開きます。