衛星データ不要のドローン視点ジオローカライゼーション学習(Satellite-Free Training for Drone-View Geo-Localization)

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GPSが使えない環境におけるドローン視点ジオローカライゼーション(DVGL)に対し、UAVの観測を用いて参照ギャラリーから正しいジオタグ付き衛星タイルを取得することで対応するが、学習時には衛星画像への依存を避ける。
  • マルチビューのUAVシーケンス向けに、まずジオメトリ正規化されたドローン側表現を構築し、その後クロスビュー検索を行う「衛星データ不要の学習(SFT: Satellite-Free Training)」の枠組みを提案する。
  • 本手法は、3Dガウススプラッティングによりマルチビューのドローン画像から高密度な3Dシーン再構成を行い、再構成したジオメトリをPCAに導かれた疑似オルソフォトへ投影する。
  • 軽量なジオメトリ誘導インペインティングによって疑似オルソフォトを洗練させ、頑健な特徴抽出に適したテクスチャが欠損しないビューを生成する。
  • 検索では、生成したオルソフォトからDINOv3のパッチ特徴を用い、ドローンのみのデータでフィッシャー・ベクトル集約モデルを学習することで、University-1652およびSUES-200で強力な性能を達成し、衛星教師あり手法との性能差を縮小する。

概要: ドローン視点ジオローカライゼーション(DVGL)は、UAVがある場所について取得した観測をもとに、参照ギャラリーから対応するジオタグ付き衛星タイルを取り出すことで、GPSが利用できない環境におけるドローンの位置を特定することを目的としています。既存の多くの定式化では、こうした観測は単一の斜め視点のUAV画像として表現されます。これに対し、本研究で想定する「衛星なし」環境はマルチビューのUAVシーケンス向けに設計されており、クロスビュー検索の前に、ジオメトリで正規化されたUAV側の位置表現を構築するために用いられます。既存手法はトレーニング中に衛星画像に依存しており、対応する教師付きの学習、あるいは教師なしアラインメントのいずれかを通じて行われます。そのため、衛星データが利用できない、または利用が制限される場合には、実運用上の導入が難しくなります。本論文では、ドローン画像を3つの主要段階によってクロスビュー互換な表現へ変換する、衛星なしトレーニング(SFT)フレームワークを提案します。具体的には、(1) ドローン側での3Dシーン再構成、(2) ジオメトリに基づく疑似オルソフォト生成、(3) 検索のための衛星なし特徴集約、の3段階です。まず、3Dガウススプラッティングを用いてマルチビューのドローン画像から密な3Dシーンを再構成し、PCAに導かれた正射投影によって再構成したジオメトリを疑似オルソフォトへ投影します。このレンダリング段階は、レンダリング時にカメラパラメータを必要とせず、再構成されたシーンジオメトリ上で直接動作します。次に、軽量なジオメトリ誘導インペインティングによってこれらのオルソフォトを洗練し、テクスチャが完全なドローン側ビューを得ます。最後に、生成したオルソフォトからDINOv3のパッチ特徴を抽出し、ドローンデータのみからフィッシャー・ベクトル集約モデルを学習し、そのモデルをテスト時に再利用して衛星タイルをエンコードし、クロスビュー検索を行います。University-1652およびSUES-200での実験結果は、本SFTフレームワークが衛星なしの汎化ベースラインを大幅に上回り、衛星画像で学習された手法とのギャップを縮めることを示しています。