AnchorD：因子グラフによる単眼奥行き推定のメトリック・グラウンディング

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、因子グラフ最適化を用いて単眼の奥行き推定を実測スケール（メトリック）に「グラウンディング」する、トレーニング不要の枠組みAnchorDを提案している。
パッチごとのアフィン整合により、単眼予測のメトリック空間への局所的なアンカー付けを行い、誤ったスケールを補正しつつ幾何学的な細部や深度の不連続を保つことを狙っている。
複数のセンサや領域にまたがる評価で、再学習なしに深度精度が一貫して改善することが示されているため、ロボティクス応用での実装負荷を下げられる。
難しい実環境（非ラブラン面）での評価のため、マット反射スプレーとマルチカメラ融合により密なシーン全体の真値奥行きを取得したベンチマークデータセットを新たに導入している。
実装は公開されており、深度センシングやロボット知覚に取り組む研究者・開発者が導入しやすい形になっている。

Abstract

高密度かつ高精度な深度推定は、ロボットの操作、把持、ナビゲーションに不可欠です。しかし、現在利用可能な深度センサは、透明・鏡面（スペキュラ）・一般的な非ラプランタン（非ランバート）表面に対して誤りを起こしやすいという問題があります。これらの誤りを軽減するため、大規模な単眼深度推定アプローチは強力な構造的事前知識（プリア）を提供しますが、その予測はメートル単位の計量空間で歪んだり、スケールがずれたりする可能性があり、ロボティクスに直接用いるうえで制約となります。そこで本研究では、要訓練（トレーニング不要）の深度グラウンディング（基準付け）フレームワークを提案し、因子グラフ最適化によって、深度基盤モデル（depth foundation model）から得られる単眼深度推定の事前知識を、原画像センサ深度へとアンカーすることで位置付けます。本手法はパッチ単位のアフィン整合を実行し、微細な幾何学的構造や不連続性を保持しつつ、実世界のメートルスケールの深度へ局所的に単眼予測を基準付け（グラウンディング）します。困難な実環境条件での評価を容易にするため、非ラプランタンな物体が存在する状況下で、シーン全体にわたる高密度の真値深度を持つベンチマークデータセットを導入します。真値は、マット反射スプレーと複数カメラの融合によって得られ、これまでのデータセットで用いられていた「物体のみ」を対象とするCADベースの注釈に依存する必要を克服します。多様なセンサおよび領域にまたがる大規模な評価の結果、（再）学習を行わなくても、深度性能が一貫して改善されることを示します。実装は https://anchord.cs.uni-freiburg.de で公開しています。