画像ジオロケーションモデルのオブジェクト単位の説明：GeoGuessrユースケース

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、画像ジオロケーションモデルが、GeoGuessrで人間が推測に使うのと同様のオブジェクト単位の視覚手がかり（道路標示、植生、建築の詳細など）に基づいて予測しているのかを検証します。
Grad-CAMのような一般的なアトリビューションは拡散した領域を示しやすく、特定の物体や知覚可能なパターンと結びつけにくいことを踏まえ、アトリビューションからサリエント領域を抽出してオブジェクトらしい要素にセグメント化するオブジェクト中心の分析パイプラインを提案します。
セグメント化した要素の予測への寄与を、削除・挿入テストで評価し、同程度の面積カバレッジを持つランダム領域と、アトリビューション誘導のクロップを比較します。
3か国ベンチマークでの実験では、アトリビューション誘導のクロップがランダムクロップよりもモデル予測に必要な情報をより多く保持することが確認されます。
著者らは、アトリビューションマップが解釈可能で知覚可能な要素に分解できることを示す一歩として、ジオロケーションモデルのオブジェクト単位の説明に向けた展望を述べています。

Abstract

GeoGuessrのようなジオロケーションゲームを人間がプレイするとき、画像がどこで撮影されたかを推測するために、道路標示、植生、建築の細部といった具体的な視覚的手がかりに頼ります。画像ジオロケーションモデルが同様の物体レベルの根拠に依存しているのかどうかは、依然として判断が難しいです。というのも、Grad-CAMのような帰属（attribution）手法は、まとまりのある視覚的な実体というより拡散した領域を強調することが多く、そのため、モデルの予測を特定の物体や知覚可能なパターンと結びつけにくいからです。本研究では、ジオロケーションモデルが用いる視覚的根拠を調べるための、オブジェクト中心（object-centric）の分析パイプラインを提案します。帰属マップから出発し、顕著な領域を抽出して、それらを物体のような要素にセグメントします。削除および挿入テストによって、それらの予測に対する関連性を評価します。具体的には、帰属に導かれたクロップと、同程度の被覆率（coverage）を持つランダムに選択した領域とを比較します。3か国ベンチマークでの実験により、帰属に導かれたクロップは、ランダムクロップよりも一貫してモデルの予測に関するより多くの情報を保持することが示されました。これらの結果は、帰属マップが解釈可能で知覚可能な要素へと分解できることを示唆しており、ジオロケーションモデルの物体レベルの分析への一歩となります。