Fast-then-Fine:リモートセンシングにおけるクロスモーダル検索のための多粒度表現を用いた二段階フレームワーク

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、リモートセンシングの画像-テキスト検索向けに「fast-then-fine(FTF)」という二段階フレームワークを提案し、効率的な候補抽出と精密な再ランキングを分離します。
  • 候補抽出の段階では、テキストに依存しない粗い多粒度表現を用いて、コストの高いクロスモーダル相互作用に頼らずに候補を素早く選びます。
  • 再ランキングの段階では、追加の学習可能パラメータを増やさない「パラメータフリー」のバランス調整されたテキスト誘導インタラクション・ブロックによって、細かなクロスモーダル整合を高めます。
  • 粒度の異なる表現間での整合を共同最適化するために、モーダル間およびモーダル内の損失を設計し、既存手法よりも検索効率を改善しつつベンチマークで競争力のある性能を報告しています。