要旨: 世界規模の画像ジオローカライゼーション、すなわち地球上の任意の画像のGPS座標を予測することを目的とする課題は、世界的な視覚的多様性によって依然として困難です。近年、Retrieval-Augmented Generation(RAG)および大規模マルチモーダルモデル(LMM)に基づく生成的アプローチは、推論のために固定データベースから取得した候補を活用していますが、参照セットに存在しないシーンではしばしばうまく機能しません。本研究では、RAGパイプラインにウェブ規模の逆画像検索を統合したオープンワールドなジオロケーションフレームワークであるGeoSearchを提案します。GeoSearchは、データベースから取得した座標と、ウェブページから抽出したテキスト根拠を用いてLMMプロンプトを補強します。関連性のないコンテンツから生じるノイズを軽減するために、画像マッチングに続いて信頼度に基づくゲーティングを行う、二層のフィルタリング機構を導入します。標準ベンチマークであるIm2GPS3kおよびYFCC4kでの実験により、リーケージを考慮した評価においてGeoSearchが優れていることを示します。再現性を支えるために、私たちのコードとデータは公開されています。
GeoSearch:Web規模のリバース画像検索と画像マッチングで世界規模のジオローカライゼーションを拡張
arXiv cs.CV / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、固定された参照画像セットの限界を補い、地球上の任意の画像のGPS座標推定を行うオープンワールドな画像ジオロケーション手法「GeoSearch」を提案している。
- GeoSearchは、リトリーバル・オーグメンテッド・ジェネレーション(RAG)パイプラインにWeb規模のリバース画像検索を組み込み、候補座標とWebページから抽出したテキスト根拠を大規模マルチモーダルモデルのプロンプトへ投入する。
- ノイズの多い無関係コンテンツを抑えるために、画像マッチングに続いて信頼度ベースのゲーティングを行う2段階のフィルタリング機構を導入している。
- Im2GPS3kおよびYFCC4kでの実験により、GeoSearchがリークを考慮した評価において既存手法より優れていることが示されている。
- 追試可能性を高めるため、コードとデータが公開されている。



