U-ViLAR：微分可能なアソシエーションと登録による不確実性を考慮した自動運転向けビジュアルローカリゼーション

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

U-ViLARは、都市環境でGNSS（グローバル測位衛星システム）の信号が劣化し信頼できない状況でも用いることを想定した、自動運転向けの不確実性を考慮したビジュアルローカリゼーションの新しい枠組みである。
アプローチでは、入力画像の特徴とHDマップやナビゲーションマップの情報をBird’s-Eye-View（BEV）空間に投影して、地図入力との空間的一貫性を高めている。
視覚（知覚）の不確実性に起因する誤りを抑えるために、Perceptual Uncertainty-guided Association（知覚不確実性ガイド付きアソシエーション）を導入している。
さらに、ローカリゼーションの微調整における不確実性によって生じる誤差を抑えるLocalization Uncertainty-guided Registration（ローカリゼーション不確実性ガイド付き登録）を提案している。
実験では複数のローカリゼーション課題で最先端性能が報告され、大規模な自動運転フリートでの検証でも難しい都市シナリオにおいて安定した性能が示されている。

Abstract

視覚情報を用いた正確なローカライゼーションは、特に都市環境において、近隣の建物や建設現場がGNSS（Global Navigation Satellite System：全地球航法衛星システム）の信号品質を大きく低下させるため、重要であると同時に非常に難しい課題です。この問題は、GNSS信号が信頼できない状況において、視覚ローカライゼーション技術の重要性を強調しています。本論文では、これらの課題に対処しつつ、高精細（HD）マップまたはナビゲーションマップを用いた適応的なローカライゼーションを可能にする、新たな不確実性認識型視覚ローカライゼーションフレームワークであるU-ViLARを提案します。具体的には、まず入力となる視覚データから特徴を抽出し、マップ入力との空間的一貫性を高めるためにそれらをBird's-Eye-View（BEV：俯瞰）空間へと写像します。次に、次の2つを導入します。a）知覚的不確実性に導かれたアソシエーション（Perceptual Uncertainty-guided Association）により、知覚の不確実性によって生じる誤りを緩和し、b）ローカライゼーションの不確実性に導かれた登録（Localization Uncertainty-guided Registration）により、ローカライゼーションの不確実性が導入する誤りを低減します。アソシエーションが持つ粗視的で大規模なローカライゼーション能力と、登録が持つ精密なきめ細かなローカライゼーション能力を効果的にバランスさせることで、本手法は堅牢かつ正確なローカライゼーションを実現します。実験結果により、本手法が複数のローカライゼーション課題において最先端の性能を達成することが示されます。さらに、本モデルは大規模な自動運転車両フリートに対して厳密な検証を行っており、さまざまな困難な都市シナリオにおいて安定した性能を示しました。