DualGeo:デュアルビューによる世界規模の画像ジオローカライゼーション向けフレームワーク

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • DualGeoは、街〜大陸規模までを対象に、精度向上を目指した世界規模の画像ジオローカライゼーションのための新しい二段階フレームワークです。
  • 双方向クロスアテンションで画像とセマンティックセグメンテーション特徴を融合し、その表現をGPS座標に整合させるためにデュアルビュー対照学習を用いてグローバルな検索データベースを構築します。
  • ジオ認知的な洗練として、地理的クラスタリングで検索候補を再ランキングし、その結果を大規模マルチモーダルモデルに入力して最終的な座標を予測します。
  • IM2GPS、IM2GPS3k、YFCC4kでの実験では、DualGeoが従来の最先端手法を上回り、街(<1 km)および都市(<25 km)レベルで大きな改善が示されています。
  • 著者はコードとデータセットをGitHubで公開しており、再現性とさらなる研究を促進します。

概要: 世界規模の画像ジオローカリゼーションは、地球上のどこで撮影された画像であっても、その画像の地理的位置を推定することを目指します。対象は、道路、都市、地域、国家、そして大陸といった幅広いスケールに及びます。既存手法は、環境の変化(例:照明、季節、天候)に敏感な視覚的特徴に依存しており、外れの候補を除外するための効果的な事後処理も欠けているため、ローカリゼーション精度が制限されています。これらの制約に対処するために、我々は世界規模の画像ジオローカリゼーションのための2段階フレームワークであるDualGeoを提案します。第一に、双方向のクロスアテンションにより画像特徴とセマンティックセグメンテーション特徴を融合し、地理表現の基盤を構築します。次に、融合特徴をGPS座標と整合させるためにデュアルビューのコントラスティブ学習を行い、グローバルな検索データベースを構築します。第二に、地理的クラスタリングを用いて検索候補を再ランキングすることにより、地理的認知の洗練(リファイン)を行います。その後、それらを大規模マルチモーダルモデル(LMM)に入力し、最終的な座標予測を行います。IM2GPS、IM2GPS3k、YFCC4kに対する実験により、DualGeoは最先端手法を上回り、道路レベル(<1 km)および都市レベル(<25 km)のローカリゼーション精度をそれぞれ3.6%-16.58%と1.29%-8.77%改善します。我々のコードとデータセットは以下で利用可能です: https://github.com/CJ310177/DualGeo.