COMPASS:床面図(フロアプラン)ベースの視覚ローカライゼーションのためのコンパクトなマルチチャネル事前地図&シーン署名

arXiv cs.CV / 2026/4/29

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、建築用のフロアプランに含まれる幾何情報だけでなくセマンティクス情報も活用する視覚ローカライゼーション手法「COMPASS」を提案する。
  • COMPASSは、360度の方位ビンに基づく多チャネルの放射状(ラジアル)記述子を作成し、正規化レンジ、構造ヒット種別(壁/窓/開口)、レンジ勾配、逆レンジ、局所レンジ分散の5チャネルを符号化する。
  • 画像側では、デュアル・フィッシュアイ画像から構造要素を検出して同一の記述子構造に反映し、カメラ視点とフロアプラン由来記述子の間で構造的な照合を可能にする。
  • クロスモーダル照合の第一歩として、フィッシュアイ画像向けの窓検出手法を提示し、線分検出、垂直エッジのクラスタリング、明るさ検証により窓枠を同定する。
  • Hilti-Trimble SLAM Challenge 2026データセットでの概念実証では、各カメラの最初のフレームから抽出した壁・窓パターンがフロアプラン記述子と近い一致を示し、構造に基づくクロスモーダル・ローカライゼーションの実現可能性を裏付ける。

要旨: 建築の間取り図は、幾何情報だけでなく環境の意味情報(セマンティクス)も含む、広く利用可能な事前情報である。しかし、既存の自己位置推定(ローカライゼーション)手法は、こうした意味情報をほとんど無視している。これに対処するために、本研究では、二つの魚眼カメラを搭載したロボットの姿勢を推定するために、間取り図から得られる幾何学的事前情報と意味的事前情報の両方を活用するアルゴリズムCOMPASSを提案する。LiDARベースの場所認識におけるスキャンコンテキスト記述子に着想を得て、位置の周囲の幾何学的レイアウトを符号化する多チャネルの放射状(ラジアル)記述子を設計する。間取り図から、360度の方位ビンに向けてレイを投射し、その結果を5つのチャネルに符号化する。すなわち、正規化距離、構造ヒット種別(壁、窓、または開口)、距離勾配、逆距離、局所的な距離の分散である。画像側でも同様の記述子構造を、魚眼画像内で構造要素を検出することで満たす。完全なクロスモーダル対応付けに向けた第一歩として、魚眼画像のための窓検出アルゴリズムを提示する。この手法では、線分検出器を用いて、縦方向のエッジクラスタリングと輝度の検証により窓枠を同定する。検出された窓は魚眼カメラモデルを通じて方位角のベアリングへ投影され、視覚記述子のヒット種別チャネルが生成される。概念実証として、Hilti-Trimble SLAM Challenge 2026データセットから既知の単一姿勢で両方の記述子を生成し、各カメラの最初のフレームから抽出された壁-窓パターンが間取り図の記述子と非常によく一致することを示す。これにより、構造に基づくクロスモーダル対応付けが実現可能であることを検証する。