要旨: 球面画像からの信頼性の高い深度推定は、ロボットナビゲーションや没入型のシーン理解における360{\deg}ビジョンにとって重要である。しかし、搭載された球面カメラは、実環境のロボットプラットフォーム上で意図しない姿勢変動を起こし得る。これは、等距円筒(equirectangular)投影に固有の幾何学的歪みに加わることで、深度推定の有効性に大きな影響を与える。 この問題を調査するため、再現可能な形で等距円筒画像からの単眼深度推定モデルの頑健性を体系的に評価する、新たな公開ベンチマーク「Sphere-Depth」を導入する。カメラ姿勢の摂動をシミュレートし、広く用いられている透視投影ベースのモデルであるDepth Anything、およびDepth Anywhere、ACDNet、Bifuse++、SliceNetのような球面を意識したモデルの性能を評価する。さらに、モデル間で意味のある評価を行うために、深度キャリブレーションに基づく誤差プロトコルを提案し、予測された相対深度の値を、各モデルごとに教師ありで学習されたスケーリング係数を用いて、メートル単位の深度値へと変換する。 実験の結果、球面画像を処理することを明示的に設計したモデルであっても、正準姿勢(canonical pose)に対するカメラ姿勢の変動が観測されると、実質的な性能劣化が生じることが示された。 完全なベンチマーク、評価プロトコル、およびデータセット分割は以下で公開されている: https://github.com/sgazzeh/Sphere_depth
Sphere-Depth:球面カメラの姿勢が異なる状況に対応する深度推定手法のためのベンチマーク
arXiv cs.CV / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 球面カメラの向き(姿勢)が変化したときに、単眼の深度推定モデルがどれだけ頑健かを評価するための公開ベンチマーク「Sphere-Depth」を提案している。
- 現実のロボット環境では、意図しない姿勢摂動がequirectangular(正距円筒)投影に伴う幾何学的歪みと重なり、深度推定の精度を大きく損なう点に焦点を当てている。
- ベンチマークではカメラ姿勢の摂動をシミュレートし、Depth Anythingのようなパースペクティブベースのモデルと、Depth Anywhere、ACDNet、Bifuse++、SliceNetのような球面対応モデルを評価する。
- モデルの予測した相対深度をメートル単位の深度に変換するため、深度キャリブレーションに基づく誤差プロトコルを提案し、モデルごとに学習されたスケーリング係数を用いて公平な比較を可能にしている。
- 実験では、球面画像向けに設計されたモデルであっても、カノニカルな姿勢からのずれにより性能が大きく低下することが示されている。



