CAVERS：鍾乳洞（カースト洞）で取得したマルチモーダルSLAMデータと地上真値のモーションキャプチャ

arXiv cs.RO / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文では、鉱山やトンネルとは状質的に異なる課題に直面する自然のカースト洞で、自律ロボットの認識・ナビゲーションを支えるためのマルチモーダルデータセット「CAVERS」を提案しています。
CAVERSはスペインのCueva de la Victoriaにある構造が異なる2つの部屋で収集された24シーケンス（約335GB）を含み、RGB-D、近赤外サーマル、LiDARのセンサを、ハンディと車輪付きローバ搭載の両方で運用しています。
ほとんどのシーケンスには、洞内に設置したOptiTrackモーションキャプチャにより、120Hzでmm精度の6自由度（6-DoF）姿勢と速度の地上真値が付与されています。
著者らは、視覚・視覚慣性・サーマル慣性・LiDARベースといった複数のセンシング手法にまたがるSLAM/オドメトリの最先端手法7本と3D再構成パイプラインをベンチマークし、データセットの有用性を示しています。
データセットおよび補足資料はGitHubで公開されており、洞内SLAMやマルチモーダルロボティクスの研究・比較検証に直接利用できます。

要旨: 自然のカルスト洞窟で動作する自律ロボットは、鉱山やトンネルで遭遇するものとは質的に異なる知覚とナビゲーションの課題に直面します。すなわち、不規則な幾何形状、反射性の濡れた表面、ほぼゼロの周囲光、そして複雑に分岐する通路です。しかし、この環境を対象とした公開データセットは依然として乏しく、利用できるセンサ指標や環境の多様性も限られています。本論文では、スペインのマラガにある Cueva de la Victoria の構造的に異なる2つの部屋で取得したマルチモーダルデータセット CAVERS を提示します。全24シーケンスで、記録データは合計およそ335 GB です。センサ構成は、Intel RealSense D435i RGB-D カメラ、Optris PI640i 寄りの赤外線サーマルカメラ、Velodyne VLP-16 LiDAR を組み合わせたものです。これらは、完全な暗闇と人工照明のもとで、ハンドヘルドと、車輪付きローバに搭載した両方の状態で運用されます。ほとんどのシーケンスについては、洞窟内に直接設置された Optirack モーションキャプチャシステムにより、120 Hz で mm 精度の 6 自由度 (6-DoF) のグラウンドトゥルース姿勢と速度が提供されます。さらに、視覚、視覚慣性、サーマル慣性、LiDAR ベースの各パイプラインにまたがる最先端の SLAM およびオドメトリ手法7つと、3D 再構成パイプラインをベンチマークし、データセットの利用可能性を示します。%データセットおよびすべての補足資料は以下で公開されています: https://github.com/spaceuma/cavers.