CVGL:因果学習と幾何トポロジー

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、街路画像と空撮画像を対応付けるクロスビュー地理位置推定のフレームワーク CLGT を提案し、自律ナビゲーションとマッピングを改善します。
  • 因果介入を用いた因果特徴抽出器(CFE)を組み込み、混同行動因子を低減し、安定でタスク関連の意味表現を強調します。
  • Geometric Topology Fusion(GT Fusion)を用いて、鳥瞰図ビュー(BEV)の道路トポロジを街路特徴に注入し、極端な視点変換によるクロスビューの不整合を緩和します。
  • データ適応プーリング(DA Pooling)モジュールは、意味的に豊かな領域の表現を強化し、広範な実験により CVUSA、CVACT で最先端の性能を示し、頑健性を高めたバリアントも示されています。コードは GitHub に公開されています。

概要: クロスビュー地理位置推定(CVGL)は、街路画像の地理的位置を、対応する航空画像と照合することによって推定することを目的とします。これは、複雑な現実世界のシナリオにおける自律走行およびマッピングにとって極めて重要です。しかし、視点差が大きいことと交絡因子の影響により、この課題は依然として難しいままです。これらの問題に対処するために、因果介入を活用して交絡因子の影響を緩和し、モデルが安定したタスク関連の意味表現に焦点を当てるよう促す因果特徴抽出器(CFE)と、鳥瞰図(BEV)ロードトポロジを街路特徴に注入して、極端な視点変換によって生じるクロスビューの不整合を緩和する幾何トポロジー融合(GT Fusion)モジュールを統合する因果学習と幾何トポロジー(CLGT)フレームワークを提案します。さらに、意味的に豊かな領域の表現を強化するためにデータ適応プーリング(DA Pooling)モジュールを導入します。CVUSA、CVACT、およびそれらの堅牢性強化バリアント(CVUSA-C-ALL および CVACT-C-ALL)に対する大規模な実験は、CLGT が最先端の性能を達成しており、特に現実世界の厄介な劣化条件の下で優れていることを示しています。コードは https://github.com/oyss-szu/CLGT で公開されています。

返却形式: {"translated": "翻訳されたHTML"}

広告