VidTAG:大規模環境におけるGPSジオローカリゼーションのための、時系列整合された動画とノイズ除去シーケンス予測
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VidTAGは、自己教師ありおよび言語整合型の特徴を用いてフレームとGPSの対応関係を検索する、きめ細かなビデオ地理位置推定のための提案デュアルエンコーダー・フレームワークである。
- 本研究は、動画予測における時間的一貫性の問題に取り組むため、フレーム埋め込みを整合させるためのTempGeoと、それらの整合された埋め込みに基づいてGPS特徴をリファインするエンコーダ–デコーダであるGeoRefinerを導入している。
- Mapillary(MSLS)およびGAMaでの実験により、時間的に一貫した軌跡生成が示され、GeoCLIPを上回る結果が得られた。報告によれば、1 km閾値で20%の改善が達成されている。
- VidTAGはさらに、グローバルな粗視的ベンチマークであるCityGuessr68kにおいて、最先端手法に対して報告上25%の改善を達成しており、画像ギャラリーに基づく検索よりも高いスケーラビリティ優位性が示唆される。
- 著者らは、この手法が、フォレンジックス(鑑識)、ソーシャルメディア分析、探索といった用途に向けた、実用的なきめ細かな動画からGPSへの軌跡推定を可能にすると位置づけている。




