GeomPrompt:欠損および劣化した深度下でのRGB-Dセマンティックセグメンテーションのための幾何学的プロンプト学習

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • GeomPromptは、RGB-Dセマンティックセグメンテーションで深度が欠損・劣化する状況に対し、凍結したRGB-Dセグメンタの「第4チャネル」をRGBのみからタスク駆動の幾何学プロンプトとして合成する軽量なクロスモーダル適応モジュールである。
  • GeomPrompt-Recoveryは、劣化した深度を補うために凍結セグメンタに有用な第4チャネル補正を予測し、深度推定ではなくセグメンテーション目的の幾何学的事前知識の回復を行う。
  • SUN RGB-D上で、RGBのみ推論に比べてDFormerで+6.1 mIoU、GeminiFusionで+3.0 mIoU改善し、強力な単眼深度推定ベースラインとも競争力を示した。
  • 深度劣化ではGeomPrompt-Recoveryがロバスト性を一貫して改善し、深刻な深度破損条件で最大+3.6 mIoUの向上を報告している。
  • さらに単眼深度ベースラインより計算効率が高く、レイテンシーは7.8 ms(対38.3 ms/71.9 ms)で、欠損・劣化深度下での効率的なクロスモーダル補償手段になり得ると示唆している。

Abstract

ロボティクスおよび身体化AI向けのマルチモーダル知覚システムは、多くの場合信頼できるRGB-Dセンシングを前提としていますが、実際には深度情報が欠落していたり、ノイズまみれだったり、破損していたりすることがしばしばあります。そこで本研究では、凍結したRGB-D意味セグメンテーションモデルの第4チャンネルに対し、深度教師なしで、RGBのみからタスク駆動の幾何学的プロンプトを合成する、軽量なクロスモーダル適応モジュールGeomPromptを提案します。さらに、劣化した深度を補償するために、凍結セグメンタを対象とした適切な第4チャンネル補正を予測することで補償を行う適応モジュールGeomPrompt-Recoveryも導入します。両モジュールは下流のセグメンテーションに対する教師信号のみで訓練され、深度信号を推定するのではなく、セグメンテーションに有用な幾何学的事前知識の回復を可能にします。SUN RGB-Dにおいて、GeomPromptはRGBのみの推論に比べてDFormerで+6.1 mIoU、GeminiFusionで+3.0 mIoU向上し、強力な単眼深度推定器と競争力を維持しています。劣化した深度に対しては、GeomPrompt-Recoveryが一貫して頑健性を改善し、厳しい深度破損下で最大+3.6 mIoUの向上をもたらします。GeomPromptはまた、単眼深度ベースラインよりも大幅に効率的で、38.3 msおよび71.9 msに対して7.8 msのレイテンシを実現します。これらの結果は、タスク駆動の幾何学的プロンプトが、RGB-D知覚における深度入力の欠落および劣化に対するクロスモーダル補償のための効率的な仕組みであることを示唆しています。