特徴復元の観点からの単眼深度推定：拡散強化による深度復元アプローチ

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はモノキュラー深度推定（MDE）における主流のエンコーダ・デコーダ構造が抱える限界を整理し、エンコーダ特徴の改善余地が残っていると主張しています。
深度推定を「事前学習済みエンコーダ特徴は劣化した特徴であり、そこから真の深度地図を生成する」という特徴復元（feature restoration）の観点で定式化し、InvT-IndDiffusion（可逆変換強化による間接拡散：Invertible Transform-enhanced Indirect Diffusion）で特徴復元を行う手法を提案しています。
特徴に直接の教師がないため最終のスパース深度マップからの間接的な教師信号のみを使う点を扱い、拡散ステップ間で生じる特徴ずれを、双リプシッツ条件を満たす可逆変換ベースのデコーダで抑制します。
さらに、利用可能な補助視点情報を使って局所的なディテールを高めるプラグアンドプレイのAV-LFE（Auxiliary Viewpoint-based Low-level Feature Enhancement）も導入し、複数データセットでSOTAを上回る結果を示しています。
KITTIベンチマークではベースライン比でRMSEが学習設定により4.09%および37.77%改善し、コードはGitHubで公開されています。

要旨: 単眼深度推定（MDE）は、3Dビジョンにおいて重要な応用を持つ、基礎的なコンピュータビジョンタスクである。現在の主流のMDE手法は、マルチレベル/マルチスケールの特徴処理を行うエンコーダ・デコーダ構造を採用している。しかし、現行アーキテクチャの限界や、異なるレベルの特徴が予測精度に与える影響は評価されていない。本論文ではまず上記の問題を調査し、エンコーダ特徴を改善できるなら、現行の枠組みに依然として大きな可能性があることを示す。そこで本研究では、深度推定問題を特徴復元の観点から定式化することを提案する。具体的には、事前学習済みのエンコーダ特徴を、仮定されたグラウンドトゥルース特徴の劣化版として扱い、このグラウンドトゥルース特徴がグラウンドトゥルースの深度マップを生成すると考える。そして、特徴復元のための可逆変換強化・間接拡散（InvT-IndDiffusion）モジュールを開発する。特徴に対する直接的な教師信号が存在しないため、最終的な疎な深度マップからの間接的な教師信号のみを用いる。拡散の反復手続きの間に、これによりステップ間で特徴の逸脱が生じる。提案するInvT-IndDiffusionは、双リプシッツ条件の下で可逆変換ベースのデコーダを用いることで、この問題を解決する。最後に、利用可能な場合は補助視点を用いて局所的な詳細を強調する、プラグアンドプレイ型の補助視点ベース・低レベル特徴強調モジュール（AV-LFE）を開発する。実験により、提案手法が様々なデータセットにおいて最先端手法よりも良好な性能を達成することが示される。特にKITTIベンチマークでは、ベースラインと比較して、異なる学習設定のもとでRMSEの観点で4.09%および37.77%改善される。コードは https://github.com/whitehb1/IID-RDepth で公開されている。