自己教師あり単眼深度推定のためのAdaptive Depth-converted-Scale Convolution

arXiv cs.CV / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼動画フレーム間で同一の物体が見かけのサイズを変えることによって生じる「物体の深度」と「物体のスケール」の曖昧さを明示的に扱うことで、自己教師ありの単眼深度推定を対象とする。
  • 深度–スケールの事前知識に基づいて畳み込みの受容野スケールを適応的に選択する Depth-converted-Scale Convolution(DcSConv)を提案し、畳み込みフィルタの局所的な変形に依存しない。
  • さらに、DcSConv 強化特徴と従来の畳み込み特徴を適応的に組み合わせる Depth-converted-Scale aware Fusion(DcS-F)を提案する。
  • DcSConv は、既存の CNN ベースの深度推定手法の上に追加できる「プラグアンドプレイ」モジュールとして設計されており、KITTI における性能を向上させる。
  • KITTI ベンチマークでの実験では、ベースラインに対して SqRel を最大 11.6% 削減できることが示され、アブレーションにより DcSConv と DcS-F の両方が改善に寄与していることが確認される。

Abstract

自己教師あり単眼深度推定(MDE)は、ここ数年で関心が高まっています。物体の大きさや、異なる物体間の関係を含む、シーン内の物体は、シーン構造を抽出するための主要な手がかりです。しかし従来の研究では、深度が変化することによって物体のサイズが変化する点を明示的に扱えていません。特に単眼動画では、同一の物体のサイズが連続的に変化するため、サイズと深度の曖昧さが生じます。この問題に対処するために、物体の深度と物体スケールの間にある事前の関係を取り込むことで、畳み込みの受容野(receptive field)の適切なスケールから特徴を抽出する、Depth-converted-Scale Convolution(DcSConv)強化型の単眼深度推定フレームワークを提案します。提案するDcSConvは、畳み込みフィルタの形状の局所的な変形ではなく、畳み込みのスケールの適応性に焦点を当てます。さらに、畳み込みフィルタのスケールは、その局所的な変形と同程度以上に重要であり(評価タスクにおいてはむしろそれ以上である)ことを示します。加えて、DcSConvの特徴と従来の畳み込み特徴を適応的に融合するためのDepth-converted-Scale aware Fusion(DcS-F)も開発します。DcSConv強化型の本単眼深度推定フレームワークは、既存のCNNベース手法の上に、プラグアンドプレイのモジュールとして適用でき、従来の畳み込みブロックを強化できます。KITTIベンチマークにて、異なるベースラインに対する大規模な実験を実施した結果、本手法は、SqRelの低減において最大11.6%の改善を達成し、最良の結果を得ています。アブレーション研究により、提案する各モジュールの有効性も検証されています。