Fast-then-Fine:リモートセンシングにおけるクロスモーダル検索のための多粒度表現を用いた二段階フレームワーク
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、リモートセンシングの画像-テキスト検索向けに「fast-then-fine(FTF)」という二段階フレームワークを提案し、効率的な候補抽出と精密な再ランキングを分離します。
- 候補抽出の段階では、テキストに依存しない粗い多粒度表現を用いて、コストの高いクロスモーダル相互作用に頼らずに候補を素早く選びます。
- 再ランキングの段階では、追加の学習可能パラメータを増やさない「パラメータフリー」のバランス調整されたテキスト誘導インタラクション・ブロックによって、細かなクロスモーダル整合を高めます。
- 粒度の異なる表現間での整合を共同最適化するために、モーダル間およびモーダル内の損失を設計し、既存手法よりも検索効率を改善しつつベンチマークで競争力のある性能を報告しています。

