GeoRouter:世界規模の画像地理ローカライズのための動的パラダイム・ルーティング
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、各画像クエリを期待される性能に応じて、検索(retrieval)ベースまたは生成(generation)ベースのパラダイムへ適応的に振り分ける、世界規模の画像地理ローカライズのための動的フレームワークであるGeoRouterを提案する。
- 検索モデルは微細なインスタンス照合に優れる傾向がある一方、生成モデル(大規模ビジョン言語モデルを用いる)は意味的推論に強く、単一のアプローチではすべてのケースを十分に扱えないと論じる。
- GeoRouterはLVLMバックボーンを用いて視覚内容を分析し、ルーティングの判断を生成し、さらに距離に応じた嗜好(preference)目的関数を導入することで、両パラダイム間の相対的な距離ギャップを連続的な教師信号へと変換する。
- また、本研究では、両パラダイムから独立した予測を行うことを前提に、ルーティング方策を特化して学習するために設計された最初の大規模データセットとして、GeoRoutingを提案する。
- IM2GPS3kおよびYFCC4kでの実験により、GeoRouterが既存の最先端ベースラインを大幅に上回り、パラダイムの異質性とルーティングの有効性が支持される。