3D幾何認識によるUAVクロスビュー・ジオローカライゼーションの統一
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GNSSが利用できない環境におけるUAVのクロスビュー・ジオローカライゼーションに取り組む。焦点は、斜め撮影されたUAV画像と、直交的な衛星地図との間に存在する「幾何学的ミスマッチ」であり、遠近歪みを単なる見かけのノイズとして扱うのではなくこれを直接扱う。
- Visual Geometry Grounded Transformer(VGGT)を導入し、多視点のUAVシーケンスから局所的な3Dシーン構造を復元する、エンドツーエンドで幾何を考慮した枠組みを提案する。さらに、その復元結果から仮想のバードアイビュー(BEV)をレンダリングし、UAVの遠近画像をオルソ補正して衛星画像との整合を図る。
- BEV表現は、粗い場所検索と、より精密な姿勢推定を統一するための幾何学的な仲介役として機能し、3-DoF(自由度3つ)の姿勢回帰精度を向上させる。
- 複数の位置仮説へ効率的にスケールするために、衛星ごとの候補と復元されたUAVシーン間の相互作用を分離するSatellite-wise Attention Blockを追加する。これにより計算コストは線形のまま維持される。
- 著者らは、正確な座標注釈と空間的オーバーラップ分析を備えた再調整済みのUniversity-1652データセットを公開し、University-1652およびSUES-200において、既存のベースラインと比べて顕著な性能向上(堅牢なメートル級ローカライゼーション)を報告している。




