TIGeR：時間・画像・ジオロケーション取得のための統一フレームワーク

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

画像の見た目だけでなく、撮影地（ジオロケーション）と撮影時刻（時間）を同時に扱う「Geo-Time Aware Image Retrieval」を定義し、関連するベンチマーク（学習用4.5M、評価用86k）を構築した。
TIGeRはマルチモーダル・トランスフォーマーにより、画像・地理情報・時間を統一のジオ時空埋め込み空間へ写像し、単一または複数モダリティ入力にも対応する。
TIGeRは同一表現を用いて、(i) ジオローカライゼーション、(ii) 撮影時刻の予測、(iii) ジオ時空を条件にした検索（指定時刻で同一ロケーションの画像を引く等）を行える。
大きな外観変化があっても場所の同一性をより良く保持できることで、「視覚類似性のみ」ではなく「どこで・いつ撮られたか」に基づく検索が可能になり、従来手法より最大16%（年）、8%（時刻）、14%（検索リコール）で改善した。

要旨: デジタルフォレンジック、都市モニタリング、環境分析など多くの実世界アプリケーションでは、視覚的な見え方、ジオロケーション（地理的位置）、時間について同時に推論することが必要となります。標準的なジオローカリゼーション（位置推定）や撮影時刻の予測にとどまらず、これらのアプリケーションでは、たとえば、クエリ画像と同じ場所で撮影された画像を、指定した目標時刻で検索して取り出すといった、より複雑な能力がますます求められています。本研究では、この問題を「ジオ時間認識型画像検索（Geo-Time Aware Image Retrieval）」として定式化し、訓練用に4.5Mの多様な「画像-位置-時刻」ペアからなる3つ組、評価用に86kの高品質な3つ組をキュレーションしました。次に、画像、ジオロケーション、時間を統一されたジオ時系列（geo-temporal）埋め込み空間へ写像する、多モーダルトランスフォーマーベースのモデルTIGeRを提案します。TIGeRは、柔軟な入力構成（単一モダリティおよび複数モダリティによるクエリ）に対応し、同一の表現を用いて (i) ジオローカリゼーション、(ii) 撮影時刻の予測、(iii) ジオ時間認識型の検索を実行します。大きな外観変化のもとでも基盤となる位置同一性をより適切に保持することで、TIGeRは、単に視覚的類似性だけではなく、「いつ」「どこで」そのシーンが存在したかに基づく検索を可能にします。大規模な実験の結果、TIGeRは、強力なベースラインおよび先端手法を一貫して上回り、時期（1年のうちのどの時期か）で最大16%、1日の時間帯の予測で8%、ジオ時間認識型検索のリコールで14%の改善を示しました。これは、統一されたジオ時系列モデリングの利点を明確に示しています。