PureCLIP-Depth: CLIP埋め込み空間内でのプロンプト不要・デコーダー不要の単眼深度推定

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PureCLIP-Depth は、完全にプロンプト不要かつデコーダー不要な新しい単眼深度推定モデルで、CLIP埋め込み空間内で完全に動作します。
この手法は、CLIP空間内で直接的なRGBから深度へのマッピングを厳密に学習し、従来の幾何学的特徴よりも概念情報に依存します。
室内データセットと屋外データセットの双方において、CLIP埋め込みベースのMDEモデルの中で最先端の性能を達成しています。
著者らは再現性とさらなる探究を可能にするために、GitHubでコードを公開しています。

概要: PureCLIP-Depthを提案します。完全にプロンプト不要、デコーダー不要の単眼深度推定（MDE）モデルで、Contrastive Language-Image Pre-training（CLIP）埋め込み空間内で完全に動作します。最近の幾何学的特徴に大きく依存するモデルとは異なり、概念情報に基づく新しいMDEアプローチを探求し、概念的CLIP空間内で直接計算を実行します。手法の核は、この埋め込み空間内で厳密にRGB領域から深度領域への直接的なマッピングを学習することにあります。私たちのアプローチは、室内データセットと屋外データセットの両方において、CLIP埋め込みベースのモデルの中で最先端の性能を達成します。研究で使用したコードは以下で公開されています: https://github.com/ryutaroLF/PureCLIP-Depth

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

PureCLIP-Depth: CLIP埋め込み空間内でのプロンプト不要・デコーダー不要の単眼深度推定

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer