GeomPrompt: Geometric Prompt Learning for RGB-D Semantic Segmentation Under Missing and Degraded Depth

arXiv cs.RO / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • GeomPromptは、RGB-Dセマンティックセグメンテーションで深度が欠損・劣化する状況に対し、凍結したRGB-Dセグメンタの「第4チャネル」をRGBのみからタスク駆動の幾何学プロンプトとして合成する軽量なクロスモーダル適応モジュールである。
  • GeomPrompt-Recoveryは、劣化した深度を補うために凍結セグメンタに有用な第4チャネル補正を予測し、深度推定ではなくセグメンテーション目的の幾何学的事前知識の回復を行う。
  • SUN RGB-D上で、RGBのみ推論に比べてDFormerで+6.1 mIoU、GeminiFusionで+3.0 mIoU改善し、強力な単眼深度推定ベースラインとも競争力を示した。
  • 深度劣化ではGeomPrompt-Recoveryがロバスト性を一貫して改善し、深刻な深度破損条件で最大+3.6 mIoUの向上を報告している。
  • さらに単眼深度ベースラインより計算効率が高く、レイテンシーは7.8 ms(対38.3 ms/71.9 ms)で、欠損・劣化深度下での効率的なクロスモーダル補償手段になり得ると示唆している。

Abstract

Multimodal perception systems for robotics and embodied AI often assume reliable RGB-D sensing, but in practice, depth is frequently missing, noisy, or corrupted. We thus present GeomPrompt, a lightweight cross-modal adaptation module that synthesizes a task-driven geometric prompt from RGB alone for the fourth channel of a frozen RGB-D semantic segmentation model, without depth supervision. We further introduce GeomPrompt-Recovery, an adaptation module that compensates for degraded depth by predicting the fourth channel correction relevant for the frozen segmenter. Both modules are trained solely with downstream segmentation supervision, enabling recovery of the geometric prior useful for segmentation, rather than estimating depth signals. On SUN RGB-D, GeomPrompt improves over RGB-only inference by +6.1 mIoU on DFormer and +3.0 mIoU on GeminiFusion, while remaining competitive with strong monocular depth estimators. For degraded depth, GeomPrompt-Recovery consistently improves robustness, yielding gains up to +3.6 mIoU under severe depth corruptions. GeomPrompt is also substantially more efficient than monocular depth baselines, reaching 7.8 ms latency versus 38.3 ms and 71.9 ms. These results suggest that task-driven geometric prompting is an efficient mechanism for cross-modal compensation under missing and degraded depth inputs in RGB-D perception.