階層的テキスト駆動の位置認識のためのリーマン幾何学とシンプレクティック幾何学

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットのためのテキストから点群へのローカライゼーションに取り組み、既存のプールドされたグローバル記述子手法が識別的なシーン情報を失い、構造化された空間手がかりの捉えにおいて性能が不十分であると論じている。
  • 3段階(インスタンス・レベル、リレーション・レベル、グローバル・レベル)でテキストと点群を整合させる、粗密(coarse-to-fine)のクロスモーダル・ローカライゼーション枠組み「SympLoc」を提案する。
  • インスタンス・レベルの整合では、双曲空間上のリーマン自己注意を用いて、個々の物体インスタンスをテキスト上の手がかりと対応付ける。
  • リレーション・レベルの整合では、情報シンプレクティック・リレーション・エンコーダ(ISRE)を用いてフィッシャー・ラオ計量とハミルトン力学により不確実性を考慮した、幾何学的に整合的なペア間の関係の伝播を符号化する。
  • KITTI360Poseにおける実験では、従来の最先端手法に対してTop-1 recall@10mが19%向上し、階層的なクロスモーダル検索で大きな改善が得られることを示している。

Abstract

テキストからポイントクラウドへのローカライズは、自然言語による記述を通じてロボットが空間上の位置を理解できるようにし、自動運転やラストマイル配送といった応用における人とロボットの協調にとって重要です。しかし、既存の手法は類似検索のためにプールされたグローバル記述子を用いることが多く、その結果、重大な情報損失が生じ、識別力のあるシーン構造を捉えられません。これらの課題に対処するために、本研究では、粗い段階におけるマルチレベルのアラインメントを備えた新しい粗密(coarse-to-fine)ローカライズフレームワークであるSympLocを提案します。グローバル記述子のみに依存していた従来手法とは異なり、我々の粗い段階は、相補的な3つのアラインメントレベルから構成されます。1) インスタンスレベルのアラインメントは、双曲空間におけるリーマン自己注意(Riemannian self-attention)により、ポイントクラウド内の個々の物体インスタンスとテキストの手がかりとの間に直接的な対応関係を確立します。2) 関係レベルのアラインメントは、Information-Symplectic Relation Encoder(ISRE)により、物体間のペアワイズな空間関係を明示的にモデル化します。ここでは、ファッシャー・ラオ計量(Fisher-Rao metric)とハミルトン力学(Hamiltonian dynamics)を用いて関係特徴を再定式化し、不確実性に配慮した、幾何学的に整合的な伝播を実現します。3) グローバルレベルのアラインメントは、スペクトル・マニフォールド変換(Spectral Manifold Transform; SMT)によって識別的なグローバル記述子を合成し、グラフのスペクトル解析を通じて構造不変量を抽出します。この階層的アラインメント戦略により、微細なから粗い粒度へと段階的にシーンのセマンティクスを捉えることができ、堅牢なクロスモーダル検索が可能になります。KITTI360Poseデータセットでの大規模な実験により、SympLocが既存の最先端手法と比較してTop-1 recall@10mで19%の改善を達成することが示されています。