自己教師あり単眼深度推定のためのAdaptive Depth-converted-Scale Convolution
arXiv cs.CV / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単眼動画フレーム間で同一の物体が見かけのサイズを変えることによって生じる「物体の深度」と「物体のスケール」の曖昧さを明示的に扱うことで、自己教師ありの単眼深度推定を対象とする。
- 深度–スケールの事前知識に基づいて畳み込みの受容野スケールを適応的に選択する Depth-converted-Scale Convolution(DcSConv)を提案し、畳み込みフィルタの局所的な変形に依存しない。
- さらに、DcSConv 強化特徴と従来の畳み込み特徴を適応的に組み合わせる Depth-converted-Scale aware Fusion(DcS-F)を提案する。
- DcSConv は、既存の CNN ベースの深度推定手法の上に追加できる「プラグアンドプレイ」モジュールとして設計されており、KITTI における性能を向上させる。
- KITTI ベンチマークでの実験では、ベースラインに対して SqRel を最大 11.6% 削減できることが示され、アブレーションにより DcSConv と DcS-F の両方が改善に寄与していることが確認される。
