TEMA:画像をアンカーし、テキストに追従することで複数修正を伴う合成画像検索を行う

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、参照画像と修正テキストを組み合わせたマルチモーダルな指示で目的画像を検索する Composed Image Retrieval(CIR)を対象に、実運用上の課題として「エンティティのカバー不足」と「節とエンティティの不整合」を指摘しています。
  • 読み取り可能な修正内容の幅を広げるための、命令(インストラクション)を重視した複数修正データセット M-FashionIQ と M-CIRR を新たに構築します。
  • TEMA(Text-oriented Entity Mapping Architecture)を提案し、複数修正に対応しつつシンプルな修正も扱える、最初のCIRフレームワークだと位置づけています。
  • 4つのベンチマークでの実験により、TEMAが元のシナリオと複数修正シナリオの両方で優れた性能を示し、精度と計算効率のバランスも良好に保てることが示されています。
  • コードと構築した複数修正データセットは、提示されたGitHubリポジトリで公開されています。