Abstract
単一のRGB画像からのモノキュラー深度推定は、固有のスケール曖昧性と明示的な幾何学的手がかりの欠如により、コンピュータビジョンにおける根本的な課題のままです。既存の手法は一般に、深度マップを回帰するために、ますます複雑なネットワークアーキテクチャに依存しています。その結果、ピクセル間の空間的な依存関係を十分に活用することなく、訓練コストと計算オーバーヘッドが増大します。本研究では、Swin Transformerバックボーンに基づく多段階パーセプチュアル条件付きランダムフィールド(CRF)モデルを提案し、3つの相乗的な改良によってこれらの制限に対処します:(1) 多尺度空間ピラミッドプーリングとバイアキシャル特徴集約を組み合わせることで、短距離と長距離の依存関係の両方を捉える適応型ハイブリッドピラミッド特徴融合(HPF)戦略。これにより、グローバルな文脈情報とローカルな文脈情報を効果的に統合できます;(2) エンコーダ内で階層間の特徴相互作用を、学習可能な次元スケーリングを備えた軽量なブロードキャストモジュールによって強化する階層的アウェアネスアダプタ(HA)。これにより表現力を高めつつ、計算複雑性を低減します;(3) 動的スケーリングの注意(attention)を備えた完全連結型CRFデコーダで、きめ細かなピクセルレベルの空間関係をモデル化します。さらに、極端値の崩壊を防ぎ、安定した学習を保証するためにバイアス学習ユニットを組み込みます。NYU Depth v2、KITTI、MatterPort3D の各データセットに対する大規模な実験の結果、本手法は最先端の性能を達成し、NYU Depth v2においてAbs Relを0.088(-7.4\%)に、RMSEを0.316(-5.4\%)に低減することを示しました。また、194Mパラメータと21msの推論時間のみで、KITTIにおいて閾値精度がほぼ完璧(\delta < 1.25^3 \approx 99.8\%)であることも達成しています。