G-MIXER:測地線 Mixup による暗黙的セマンティクス拡張と明示的セマンティクス再ランキングで実現するゼロショット合成画像検索

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、ゼロショットの合成画像検索(CIR)において、クエリに明示された意味と、画像・テキストの合成に潜む暗黙的な意味の両方を扱うための学習不要手法G-MIXERを提案する。
  • 既存手法が主にMLLM(マルチモーダル大規模言語モデル)により生成されたテキスト記述へ依存するのに対し、G-MIXERは複数のmixup比にわたる測地線mixupで合成クエリ特徴を拡張し、多様な候補集合を構築する。
  • 生成した候補は、MLLMから得た明示的セマンティクスで再ランキングされ、その結果として検索の多様性と精度の双方が向上する。
  • 本手法は追加学習なしで複数のZS-CIRベンチマークで最先端性能を達成し、コードはGitHubで公開される。