Bootstrap Perception Under Hardware Depth Failure for Indoor Robot Navigation

arXiv cs.RO / 4/1/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 反射面などの環境要因で深度センサー(ToF)が最大78%の深度ピクセルを失う前提で、屋内ロボット航法向けのブートストラップ型知覚システムを提案しています。
  • ToFの故障(欠損)を“自分自身の状態”から利用し、生き残った有効ピクセルで学習済みモノキュラー深度をメートルスケールへ較正して欠損領域を自律的に補完します。
  • LiDARを幾何学アンカーとして常に保持し、有効な深度はそのまま使い、欠損時のみ学習深度を選択的に補う“故障対応のセンシング階層”を構成します。
  • 回廊および動的歩行者環境で、選択的フュージョンによりコストマップの障害物カバー率がLiDAR単独比で55〜110%向上し、Jetson Orin Nano上で218FPSのコンパクト蒸留モデルが衝突ゼロの閉ループシミュレーションで9/10の成功率を示しました。

Abstract

We present a bootstrap perception system for indoor robot navigation under hardware depth failure. In our corridor data, the time-of-flight camera loses up to 78% of its depth pixels on reflective surfaces, yet a 2D LiDAR alone cannot sense obstacles above its scan plane. Our system exploits a self-referential property of this failure: the sensor's surviving valid pixels calibrate learned monocular depth to metric scale, so the system fills its own gaps without external data. The architecture forms a failure-aware sensing hierarchy, conservative when sensors work and filling in when they fail: LiDAR remains the geometric anchor, hardware depth is kept where valid, and learned depth enters only where needed. In corridor and dynamic pedestrian evaluations, selective fusion increases costmap obstacle coverage by 55-110% over LiDAR alone. A compact distilled student runs at 218\,FPS on a Jetson Orin Nano and achieves 9/10 navigation success with zero collisions in closed-loop simulation, matching the ground-truth depth baseline at a fraction of the foundation model's cost.

Bootstrap Perception Under Hardware Depth Failure for Indoor Robot Navigation | AI Navigate