広告

TOL: OpenStreetMapによるテキストによるローカライゼーション

arXiv cs.CV / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、新しいグローバルなローカライゼーション課題「Textual Localization with OpenStreetMap(T2O)」を提案する。これは、幾何学的入力やGNSSの初期化なしに、テキスト記述から正確な2自由度(2-DoF)の都市位置を推定することを目的とする。
  • T2Oに対し、TOLは大規模ベンチマークとして提案される。約121K件のテキストクエリと、OSM地図タイルのペア、およびボストン、カールスルーエ、シンガポールにまたがるカバレッジを含み、合計で約316kmの道路軌跡を扱う。
  • 著者らは、TOLocという粗密(coarse-to-fine)フレームワークを開発する。これはテキストとOSMタイルの両方から、方向に着目した意味特徴を用いて候補位置を検索し、その後、専用のアライメント(整合)モジュールによってポーズを回帰する。
  • 実験結果では、TOLocが先行する最良手法を、5m・10m・25mのしきい値でそれぞれ6.53%、9.93%、8.31%上回り、未見の環境にも良好に汎化することが示される。
  • データセット、コード、モデルは、提示されたGitHubリポジトリを通じて公開が予定されている。

要旨: 自然言語は、地理空間アプリケーションにおける空間的意図を表現する直感的な方法を提供します。既存のローカライゼーション手法はしばしば、高密度の点群地図や高解像度画像に依存しますが、OpenStreetMap(OSM)は、豊かな意味的・構造的情報を符号化する、コンパクトで自由に利用可能な地図表現を提供するため、大規模ローカライゼーションに適しています。しかし、テキストからOSM(T2O)へのローカライゼーションは、ほとんど未探索のままです。本論文では、T2Oグローバルローカライゼーション課題を定式化します。この課題は、幾何学的観測やGNSSベースの初期位置に依存せずに、都市環境においてテキストによるシーン記述から正確な2自由度(DoF)の位置(2-DoF)を推定することを目的とします。提案課題を支えるために、複数の大陸と多様な都市環境にまたがる大規模ベンチマークであるTOLを導入します。TOLは、OSM地図タイルと対になった約121K件のテキストクエリを含み、ボストン、カールスルーエ、シンガポールにまたがって道路軌跡約316 kmをカバーしています。さらに、周囲の物体の意味とその方向情報を明示的にモデル化する、粗いから細かいへ(coarse-to-fine)のローカライゼーション枠組みTOLocを提案します。粗い段階では、方向を意識した特徴を、テキスト記述とOSMタイルの両方から抽出してグローバル記述子を構築し、これを用いてクエリの候補位置を検索します。細かい段階では、クエリテキストと上位1件として取得されたタイルを共同で処理し、専用のアライメントモジュールがテキスト記述子とローカル地図特徴を融合して、2-DoF姿勢を回帰します。実験結果は、TOLocが強力なローカライゼーション性能を達成し、5m、10m、25mの閾値それぞれにおいて既存の最良手法を6.53%、9.93%、8.31%上回ること、また未見の環境への強い汎化性能を示すことを明らかにしています。データセット、コード、モデルは以下で公開されます: https://github.com/WHU-USI3DV/TOL。

広告