深度対応ローバー:エッジAIと単眼視による実環境実装の研究

arXiv cs.CV / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本研究は、深度対応ローバーのナビゲーションを対象に、ステレオ視覚から単眼の深度推定へと切り替えつつエッジAIで実装した場合のシミュレーションと実環境での結果を比較・分析しています。
  • Unityベースの月面地形シミュレータを用い、ステレオカメラとOpenCVのStereoSGBMで視差マップを生成して、ステレオ視覚のベースラインを作りました。
  • Raspberry Pi 4の実機ローバーでは、UniDepthV2による単眼のメートル深度推定と、YOLO12nによるリアルタイム物体検出を組み合わせて実装しています。
  • シミュレーションではステレオ視覚の方が精度は高いものの、実環境では単眼のエッジAIアプローチの方が頑健で、かつコスト効率に優れており、深度推定は約0.1 FPS、検出は10 FPSを達成しています。

Abstract

本研究では、深度を意識したローバーのナビゲーションについて、シミュレーションおよび実世界の実装を解析し、ステレオビジョンからエッジAIによる単眼の深度推定への移行を強調する。ステレオカメラとOpenCVのStereoSGBMを用いたUnityベースの月面地形シミュレータにより、輝度差(ディスパリティ)マップを生成した。Raspberry Pi 4上に構築した物理ローバーでは、単眼のメートル深度推定にUniDepthV2を用い、リアルタイムの物体検出にはYOLO12nを用いた。シミュレーションではステレオビジョンのほうが高い精度を示したが、単眼アプローチは実世界への展開においてより頑健かつ費用対効果が高いことが示され、深度推定は0.1 FPS、検出は10 FPSを達成した。