概要: PureCLIP-Depthを提案します。完全にプロンプト不要、デコーダー不要の単眼深度推定(MDE)モデルで、Contrastive Language-Image Pre-training(CLIP)埋め込み空間内で完全に動作します。最近の幾何学的特徴に大きく依存するモデルとは異なり、概念情報に基づく新しいMDEアプローチを探求し、概念的CLIP空間内で直接計算を実行します。手法の核は、この埋め込み空間内で厳密にRGB領域から深度領域への直接的なマッピングを学習することにあります。私たちのアプローチは、室内データセットと屋外データセットの両方において、CLIP埋め込みベースのモデルの中で最先端の性能を達成します。研究で使用したコードは以下で公開されています: https://github.com/ryutaroLF/PureCLIP-Depth
PureCLIP-Depth: CLIP埋め込み空間内でのプロンプト不要・デコーダー不要の単眼深度推定
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PureCLIP-Depth は、完全にプロンプト不要かつデコーダー不要な新しい単眼深度推定モデルで、CLIP埋め込み空間内で完全に動作します。
- この手法は、CLIP空間内で直接的なRGBから深度へのマッピングを厳密に学習し、従来の幾何学的特徴よりも概念情報に依存します。
- 室内データセットと屋外データセットの双方において、CLIP埋め込みベースのMDEモデルの中で最先端の性能を達成しています。
- 著者らは再現性とさらなる探究を可能にするために、GitHubでコードを公開しています。