階層的テキスト駆動の位置認識のためのリーマン幾何学とシンプレクティック幾何学
arXiv cs.CV / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボットのためのテキストから点群へのローカライゼーションに取り組み、既存のプールドされたグローバル記述子手法が識別的なシーン情報を失い、構造化された空間手がかりの捉えにおいて性能が不十分であると論じている。
- 3段階(インスタンス・レベル、リレーション・レベル、グローバル・レベル)でテキストと点群を整合させる、粗密(coarse-to-fine)のクロスモーダル・ローカライゼーション枠組み「SympLoc」を提案する。
- インスタンス・レベルの整合では、双曲空間上のリーマン自己注意を用いて、個々の物体インスタンスをテキスト上の手がかりと対応付ける。
- リレーション・レベルの整合では、情報シンプレクティック・リレーション・エンコーダ(ISRE)を用いてフィッシャー・ラオ計量とハミルトン力学により不確実性を考慮した、幾何学的に整合的なペア間の関係の伝播を符号化する。
- KITTI360Poseにおける実験では、従来の最先端手法に対してTop-1 recall@10mが19%向上し、階層的なクロスモーダル検索で大きな改善が得られることを示している。




