VidTAG：大規模環境におけるGPSジオローカリゼーションのための、時系列整合された動画とノイズ除去シーケンス予測

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

VidTAGは、自己教師ありおよび言語整合型の特徴を用いてフレームとGPSの対応関係を検索する、きめ細かなビデオ地理位置推定のための提案デュアルエンコーダー・フレームワークである。
本研究は、動画予測における時間的一貫性の問題に取り組むため、フレーム埋め込みを整合させるためのTempGeoと、それらの整合された埋め込みに基づいてGPS特徴をリファインするエンコーダ–デコーダであるGeoRefinerを導入している。
Mapillary（MSLS）およびGAMaでの実験により、時間的に一貫した軌跡生成が示され、GeoCLIPを上回る結果が得られた。報告によれば、1 km閾値で20%の改善が達成されている。
VidTAGはさらに、グローバルな粗視的ベンチマークであるCityGuessr68kにおいて、最先端手法に対して報告上25%の改善を達成しており、画像ギャラリーに基づく検索よりも高いスケーラビリティ優位性が示唆される。
著者らは、この手法が、フォレンジックス（鑑識）、ソーシャルメディア分析、探索といった用途に向けた、実用的なきめ細かな動画からGPSへの軌跡推定を可能にすると位置づけている。