Geo$^\textbf{2}$:ジオメトリ誘導クロスビュー ジオローカリゼーションと画像合成
arXiv cs.CV / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Geo$^2$は、クロスビュー地理空間学習のための統一的フレームワークとして提案され、Cross-View Geo-Localization(CVGL)とCross-View Image Synthesis(CVIS)の両方を同時に扱う。
- 本手法は、Geometric Foundation Models(例:VGGT)から得られる3D幾何学的事前知識を活用するが、大きな地上–上空の視点ギャップに対処するためにGeoMapを導入し、両者の視点を共有の3D認識可能な潜在空間へとマッピングする。
- GeoFlowは、幾何学に配慮した潜在埋め込みを条件付けとするフローマッチング型の生成モデルとして提示され、地上ビューと上空ビューの間で双方向の画像合成を可能にする。
- 2つの合成方向間で潜在表現の整合性を強制するために整合性損失(consistency loss)を追加し、双方向の一貫性を改善する。
- CVUSA、CVACT、VIGORでの実験により、位置推定と合成の双方において最先端の結果が得られたと報告されており、3D事前知識がクロスビューのジオ課題に大きく寄与し得ることを示唆している。
