VIRD: デュアル軸変換によるビュー不変表現を用いたクロスビュー姿勢推定

arXiv cs.CV / 2026/3/16

💬 オピニオンModels & Research

共有:

要点

VIRDは、地上画像と衛星画像のギャップを埋めるビュー不変表現を学習するクロスビュー姿勢推定手法を提案します。
衛星ビューに極座標変換を適用して水平方向の対応づけを構築し、文脈強化型の位置注意機構を用いて垂直方向の不一致を低減します。
ビュー再構成損失は、クロスビューと元の画像の両方を再構成するようモデルを促すことで、不変性をさらに強化します。
KITTIとVIGORにおいて、VIRDは中央値の位置誤差と姿勢誤差を大幅に低減し、例えばKITTIでは50.7%および76.5%、VIGORでは18.0%および46.8%の改善を、姿勢の事前情報なしで達成します。

要約: 自律走行とロボティクスにおいて正確なグローバルローカリゼーションは極めて重要ですが、GNSSベースのアプローチは遮蔽やマルチパス効果により低下することがある。新興の代替手段として、クロスビュー姿勢推定は地上視画像に対応する3自由度カメラ姿勢を地理参照された衛星画像に対して予測する。しかし、既存の手法は地上ビューと衛星ビューの間の大きな視点ギャップを橋渡しするのが困難であり、それは主に限られた空間的対応関係による。我々は、双軸変換（VIRD）を通じてビュー不変表現を構築する新しいクロスビュー姿勢推定法を提案する。VIRDはまず衛星ビューに極座標変換を適用して水平方向の対応を確立し、次に地上および極座標変換された衛星特徴に対して文脈強化位置注意を用いて垂直方向のずれを解消し、視点ギャップを明示的に緩和する。ビュー再構成損失を導入してビュー不変性をさらに強化し、派生表現が元の画像とクロスビュー画像を再構成するよう促す。KITTIおよびVIGORデータセットでの実験は、方位事前情報なしの最先端手法を上回ることを示し、KITTIでは中央値の位置誤差と姿勢誤差をそれぞれ50.7%、76.5%低減し、VIGORではそれぞれ18.0%、46.8%低減した。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

VIRD: デュアル軸変換によるビュー不変表現を用いたクロスビュー姿勢推定

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？