RayMamba:長距離3D物体検出のためのレイ整列シリアライゼーション

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RayMambaは、疎で断片化した遠距離(far-field)LiDARからの長距離3D物体検出を改善するために、ボクセルベース検出器に対する幾何学に配慮したプラグアンドプレイ型の拡張を用いる手法として提案される。
  • 本手法は、汎用的なシリアライゼーションを、方向の連続性と、遮蔽(occlusion)に関連する文脈近傍(contextual neighborhoods)を保持するレイ整列のセクター(sector)ごとの順序付き系列に置き換える。これにより、後続のMamba/SSMモデリングに有利な入力を提供する。
  • RayMambaは、LiDARのみの検出器とマルチモーダル3D検出器の両方に互換であり、計算オーバーヘッドはわずかであると報告される。
  • nuScenesおよびArgoverse 2での実験により一貫した改善が示されており、nuScenesの40〜50 m範囲で最大+2.49 mAPおよび+1.59 NDSを達成する。さらにArgoverse 2ではVoxelNeXtの結果も改善(30.3→31.2 mAP)する。

要旨: 長距離の3D物体検出は、遠方視野ではLiDAR観測が非常に疎で断片化するため、既存の検出器では信頼できるコンテキストモデリングが困難になり、依然として難しい課題です。この問題に対処するため、近年は状態空間モデル(SSM)ベースの手法が長距離モデリングの効率を改善しています。しかし、その有効性は、疎なシーンにおいて意味のある文脈近傍を保持できない汎用的なシリアライズ戦略によって、いまだ制限されています。そこで本研究では、ボクセルベースの3D検出器のための、幾何学に配慮したプラグアンドプレイ拡張であるRayMambaを提案します。RayMambaは、レイに沿ったシリアライズ戦略により疎なボクセルをセクタごとの順序付きシーケンスに整理し、その後のMambaベースのモデリングのために、方向の連続性と遮蔽(オクルージョン)に関連する文脈を保持します。RayMambaはLiDARのみの検出器とマルチモーダル検出器の両方に対応しており、導入に伴うオーバーヘッドはわずかです。nuScenesおよびArgoverse 2における大規模な実験により、強力なベースライン全体で一貫した改善が示されました。特にRayMambaは、nuScenesの難しい40--50 m範囲において最大2.49 mAPおよび1.59 NDSの向上を達成し、さらにArgoverse 2でVoxelNeXtをmAP 30.3から31.2へと改善します。