OMCL：オープンボキャブラリ・モンテカルロ・ローカライゼーション

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、カメラ姿勢と3D地図から観測尤度を計算するために視覚言語特徴を用いる、モンテカルロ・ローカライゼーションの拡張手法OMCL（Open-vocabulary Monte Carlo Localization）を提案する。
ロボットの計測と地図が異なるセンサモダリティに由来するケースを対象とし、従来のクローズドセット／環境固有のローカライゼーション手法の限界に対処する。
OMCLは、視覚観測と地図要素の間のクロスモダリティ対応付けをサポートし、近傍の物体に関する自然言語による記述から直接グローバルなローカライゼーションの初期化を可能にする。
Matterport3DおよびReplicaでの実験により屋内での頑健性が示され、SemanticKITTIの結果では屋外への一般化が確認される。

概要: 堅牢なロボット自己位置推定はナビゲーションにとって重要な前提条件ですが、地図とロボットの計測が異なるセンサーから得られる場合には難しくなります。従来手法の多くは特定の環境に合わせて調整されており、クローズドセットの意味論に依存するか、微調整された特徴量を用いています。本研究では、視覚と言語の特徴を用いてモンテカルロ局所化を拡張し、OMCLが、ポーズ付きRGB-D画像から作成した3D地図、または整列済みの点群を用いて、カメラ姿勢が与えられたときの視覚観測の尤度を堅牢に計算できるようにします。これらのオープン語彙の特徴により、異なるモダリティ間で観測と地図要素を対応付けることができ、さらに近くの物体に関する自然言語による記述を通じて、グローバルな局所化をネイティブに初期化できるようになります。我々は、屋内シーンについてMatterport3DとReplicaを用いて手法を評価し、屋外シーンについてはSemanticKITTIで一般化を示します。