LiftFormer:リフティングおよびフレーム理論に基づく、深度とエッジ指向部分空間表現を用いた単眼深度推定

arXiv cs.CV / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、リフティングおよびフレーム理論を用いて、画像の色特徴と幾何学的な深度値との関連をより良く結び付ける、単眼深度推定(MDE)手法「LiftFormer」を提案する。
  • 深度指向幾何表現(DGR)の部分空間を構築し、変換された空間的画像特徴が、深度ビンに基づく深度予測とより直接的に対応するようにする。
  • 境界付近での精度を向上させるため、エッジに配慮した表現(ER)部分空間を追加し、予測がしばしば誤るエッジ周辺の局所的な深度特徴を強化する。
  • 本手法は、フレーム理論の概念(線形従属なベクトル)を活用して冗長で頑健な表現を作り、もともと本質的に不良設定(ill-posed)であるMDE問題を安定化させることを目指す。
  • 実験では、標準的なMDEデータセットにおいて最先端の結果を報告しており、アブレーション研究によりリフティングモジュールの両方の貢献が確認されている。

要旨: 単眼深度推定(MDE)は、3Dビジョンにおいて重要な役割を担うことから、ここ数年で関心が高まってきました。MDEは、単眼画像/動画から深度マップを推定して、シーンの3D構造を表現することですが、これは非常に難しい(非良設定な)問題です。この問題を解決するために、本論文では、画像の色特徴と深度値の間をつなぐ中間サブスペースを構築し、さらにエッジ周辺で深度予測を強化するサブスペースを構築するための、リフティング理論のトポロジーに基づくLiftFormerを提案します。MDEは、深度値予測の問題を深度指向幾何表現(DGR)サブスペース特徴表現へ変換することで定式化し、色値から幾何学的な深度値へと学習を橋渡しします。DGRサブスペースは、フレーム理論に基づいて、深度ビンに従う線形従属ベクトルを用いることで冗長かつ頑健な表現を提供するよう構築されます。画像の空間特徴はDGRサブスペースへと変換され、これらの特徴は深度値と直接対応します。さらに、エッジは通常深度マップにおいて急激な変化として現れ、誤って予測されやすいため、エッジに配慮した表現(ER)サブスペースを構築します。このサブスペースでは、深度特徴を変換し、エッジ周辺の局所特徴を強化するためにさらに利用します。実験結果により、提案するLiftFormerが広く用いられているデータセットで最先端の性能を達成することが示され、アブレーション研究により、LiftFormer内の提案した両方のリフティングモジュールの有効性が検証されます。