MPTF-Net:LiDARベースの自己位置認識のためのマルチビュー・ピラミッド・トランスフォーマ融合ネットワーク

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、大規模SLAMシステムにおけるグローバル・ローカライゼーションとループクロージャ検出の性能向上を目的とした、LiDARベースの自己位置認識モデルMPTF-Netを提案する。
  • 従来のBEV手法の限界に対し、ノイズに強い構造的事前知識を用いて、局所的な幾何学的複雑性と強度分布を捉えるマルチチャネルNDTベースのBEVエンコーディングを利用する。
  • MPTF-Netは、Range Image Views(RIV)とNDT-BEVの間のビュー横断相関を学習する、カスタマイズされたマルチスケール・ピラミッド・トランスフォーマ・モジュールにより特徴を融合する。
  • nuScenes、KITTI、NCLTでの実験により、最新水準の結果が報告されており、nuScenes Boston分割でRecall@1が96.31%を達成している。リアルタイム利用を想定した推論レイテンシは10.02 msとされる。
  • 本研究は、認識精度と低い計算レイテンシのバランスを取ることで、リアルタイム自律無人システムに実用的に適用できる手法であることを位置付けている。

Abstract

LiDARベースの場所認識(LPR)は、大規模SLAMシステムにおけるグローバルな自己位置推定とループクロージャ検出に不可欠です。既存の手法では、マッチングのためにレンジ画像(Range Image)やBEV表現からグローバル記述子を構築するのが一般的です。BEVは、明示的な2Dの空間レイアウトを符号化でき、効率的な検索が可能であるため広く採用されています。しかし従来のBEV表現は単純な統計的集約に依存しており、細かな幾何学的構造を捉えられないため、複雑または反復的な環境では性能が低下します。これに対処するため、我々は新しいマルチビュー・マルチスケール・ピラミッド・トランスフォーマー融合ネットワークであるMPTF-Netを提案します。提案の中核となる貢献は、Normal Distribution Transform(NDT)によって局所的な幾何学的な複雑さと強度分布を明示的にモデル化する、マルチチャネルNDTベースのBEV符号化です。これにより、ノイズに強い構造的な事前知識を提供します。これらの特徴を効果的に統合するために、Range Image Views(RIV)とNDT-BEVの間における、複数の空間スケールでのビュー間の相互作用的な相関を捉える、カスタマイズしたピラミッド・トランスフォーマー・モジュールを開発します。nuScenes、KITTI、NCLTの各データセットに対する大規模な実験により、MPTF-Netが最先端の性能を達成することが示されました。具体的には、nuScenesのBoston splitでRecall@1が96.31\%に達し、かつ推論レイテンシはわずか10.02 msに維持されるため、リアルタイムの自律型無人システムに非常に適しています。