GeomPrompt：欠損および劣化した深度下でのRGB-Dセマンティックセグメンテーションのための幾何学的プロンプト学習

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GeomPromptは、RGB-Dセマンティックセグメンテーションで深度が欠損・劣化する状況に対し、凍結したRGB-Dセグメンタの「第4チャネル」をRGBのみからタスク駆動の幾何学プロンプトとして合成する軽量なクロスモーダル適応モジュールである。
GeomPrompt-Recoveryは、劣化した深度を補うために凍結セグメンタに有用な第4チャネル補正を予測し、深度推定ではなくセグメンテーション目的の幾何学的事前知識の回復を行う。
SUN RGB-D上で、RGBのみ推論に比べてDFormerで+6.1 mIoU、GeminiFusionで+3.0 mIoU改善し、強力な単眼深度推定ベースラインとも競争力を示した。
深度劣化ではGeomPrompt-Recoveryがロバスト性を一貫して改善し、深刻な深度破損条件で最大+3.6 mIoUの向上を報告している。
さらに単眼深度ベースラインより計算効率が高く、レイテンシーは7.8 ms（対38.3 ms/71.9 ms）で、欠損・劣化深度下での効率的なクロスモーダル補償手段になり得ると示唆している。

Abstract

ロボティクスおよび身体化AI向けのマルチモーダル知覚システムは、多くの場合信頼できるRGB-Dセンシングを前提としていますが、実際には深度情報が欠落していたり、ノイズまみれだったり、破損していたりすることがしばしばあります。そこで本研究では、凍結したRGB-D意味セグメンテーションモデルの第4チャンネルに対し、深度教師なしで、RGBのみからタスク駆動の幾何学的プロンプトを合成する、軽量なクロスモーダル適応モジュールGeomPromptを提案します。さらに、劣化した深度を補償するために、凍結セグメンタを対象とした適切な第4チャンネル補正を予測することで補償を行う適応モジュールGeomPrompt-Recoveryも導入します。両モジュールは下流のセグメンテーションに対する教師信号のみで訓練され、深度信号を推定するのではなく、セグメンテーションに有用な幾何学的事前知識の回復を可能にします。SUN RGB-Dにおいて、GeomPromptはRGBのみの推論に比べてDFormerで+6.1 mIoU、GeminiFusionで+3.0 mIoU向上し、強力な単眼深度推定器と競争力を維持しています。劣化した深度に対しては、GeomPrompt-Recoveryが一貫して頑健性を改善し、厳しい深度破損下で最大+3.6 mIoUの向上をもたらします。GeomPromptはまた、単眼深度ベースラインよりも大幅に効率的で、38.3 msおよび71.9 msに対して7.8 msのレイテンシを実現します。これらの結果は、タスク駆動の幾何学的プロンプトが、RGB-D知覚における深度入力の欠落および劣化に対するクロスモーダル補償のための効率的な仕組みであることを示唆しています。

Black Hat Asia

AI Business

AIを触る人と触らない人 | おじの解説 | 📗 AIを組織で回す技術 032

note

Klingに次ぎseedanceに課金

note

【note初心者必見！】noteクリエイターはAIに勝てるのか

note

【サトシのAI講座】60代からでもできる！AIで月5万円を稼ぐ実践副業入門

note

GeomPrompt：欠損および劣化した深度下でのRGB-Dセマンティックセグメンテーションのための幾何学的プロンプト学習

要点

Abstract

関連記事

Black Hat Asia

AIを触る人と触らない人 | おじの解説 | 📗 AIを組織で回す技術 032

Klingに次ぎseedanceに課金

【note初心者必見！】noteクリエイターはAIに勝てるのか

【サトシのAI講座】60代からでもできる！AIで月5万円を稼ぐ実践副業入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer