AI Navigate

VIRD: デュアル軸変換によるビュー不変表現を用いたクロスビュー姿勢推定

arXiv cs.CV / 2026/3/16

💬 オピニオンModels & Research

要点

  • VIRDは、地上画像と衛星画像のギャップを埋めるビュー不変表現を学習するクロスビュー姿勢推定手法を提案します。
  • 衛星ビューに極座標変換を適用して水平方向の対応づけを構築し、文脈強化型の位置注意機構を用いて垂直方向の不一致を低減します。
  • ビュー再構成損失は、クロスビューと元の画像の両方を再構成するようモデルを促すことで、不変性をさらに強化します。
  • KITTIとVIGORにおいて、VIRDは中央値の位置誤差と姿勢誤差を大幅に低減し、例えばKITTIでは50.7%および76.5%、VIGORでは18.0%および46.8%の改善を、姿勢の事前情報なしで達成します。

要約: 自律走行とロボティクスにおいて正確なグローバルローカリゼーションは極めて重要ですが、GNSSベースのアプローチは遮蔽やマルチパス効果により低下することがある。新興の代替手段として、クロスビュー姿勢推定は地上視画像に対応する3自由度カメラ姿勢を地理参照された衛星画像に対して予測する。しかし、既存の手法は地上ビューと衛星ビューの間の大きな視点ギャップを橋渡しするのが困難であり、それは主に限られた空間的対応関係による。我々は、双軸変換(VIRD)を通じてビュー不変表現を構築する新しいクロスビュー姿勢推定法を提案する。VIRDはまず衛星ビューに極座標変換を適用して水平方向の対応を確立し、次に地上および極座標変換された衛星特徴に対して文脈強化位置注意を用いて垂直方向のずれを解消し、視点ギャップを明示的に緩和する。ビュー再構成損失を導入してビュー不変性をさらに強化し、派生表現が元の画像とクロスビュー画像を再構成するよう促す。KITTIおよびVIGORデータセットでの実験は、方位事前情報なしの最先端手法を上回ることを示し、KITTIでは中央値の位置誤差と姿勢誤差をそれぞれ50.7%、76.5%低減し、VIGORではそれぞれ18.0%、46.8%低減した。