密な深度予測のためのハイブリッド・ピラミッド特徴融合を備えた階層的アウェアネス・アダプタ

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼RGB画像から深度マップを推定する際に生じるスケールの曖昧さや、幾何学的手がかりの欠落に対処することを目的とした、単眼の密な深度推定を扱う。
  • Swin-Transformerベースの多段階条件付きランダム場(CRF)フレームワークを提案し、適応的なハイブリッド・ピラミッド特徴融合(HPF)モジュールにより多尺度融合を行うことで、短距離および長距離の依存関係を捉える。
  • 階層的アウェアネス・アダプタ(HA)を導入し、軽量なブロードキャスト・モジュールと、計算コストを低く保つための学習可能な次元スケーリングを用いて、レベル間のエンコーダ特徴の相互作用を強化する。
  • ピクセルレベルの精緻化には、ダイナミックなスケーリング注意とバイアス学習ユニットを備えた全結合CRFデコーダを用い、空間的関係のモデリングを改善するとともに、極端値の崩壊を回避する。
  • NYU Depth v2、KITTI、MatterPort3Dでの実験により、Abs Rel 0.088およびRMSE 0.316(NYU Depth v2)を含む最先端の結果、KITTIでのほぼ完全な閾値精度、ならびに実用的な効率(194Mパラメータ、約21msの推論)を報告している。

Abstract

単一のRGB画像からのモノキュラー深度推定は、固有のスケール曖昧性と明示的な幾何学的手がかりの欠如により、コンピュータビジョンにおける根本的な課題のままです。既存の手法は一般に、深度マップを回帰するために、ますます複雑なネットワークアーキテクチャに依存しています。その結果、ピクセル間の空間的な依存関係を十分に活用することなく、訓練コストと計算オーバーヘッドが増大します。本研究では、Swin Transformerバックボーンに基づく多段階パーセプチュアル条件付きランダムフィールド(CRF)モデルを提案し、3つの相乗的な改良によってこれらの制限に対処します:(1) 多尺度空間ピラミッドプーリングとバイアキシャル特徴集約を組み合わせることで、短距離と長距離の依存関係の両方を捉える適応型ハイブリッドピラミッド特徴融合(HPF)戦略。これにより、グローバルな文脈情報とローカルな文脈情報を効果的に統合できます;(2) エンコーダ内で階層間の特徴相互作用を、学習可能な次元スケーリングを備えた軽量なブロードキャストモジュールによって強化する階層的アウェアネスアダプタ(HA)。これにより表現力を高めつつ、計算複雑性を低減します;(3) 動的スケーリングの注意(attention)を備えた完全連結型CRFデコーダで、きめ細かなピクセルレベルの空間関係をモデル化します。さらに、極端値の崩壊を防ぎ、安定した学習を保証するためにバイアス学習ユニットを組み込みます。NYU Depth v2、KITTI、MatterPort3D の各データセットに対する大規模な実験の結果、本手法は最先端の性能を達成し、NYU Depth v2においてAbs Relを0.088(-7.4\%)に、RMSEを0.316(-5.4\%)に低減することを示しました。また、194Mパラメータと21msの推論時間のみで、KITTIにおいて閾値精度がほぼ完璧(\delta < 1.25^3 \approx 99.8\%)であることも達成しています。