広告

Reliev3R: 多視点の幾何学的注釈からのフィードフォワード再構成の緩和

arXiv cs.CV / 2026/4/2

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、3D点マップやカメラ姿勢といった高価な多視点幾何学的注釈への依存を低減する、フィードフォワード再構成モデルのための弱教師あり学習フレームワーク「Reliev3R」を提案する。
  • コストのかかるストラクチャ・フロム・モーション(SfM)の前処理に頼るのではなく、事前学習済みモデルからのゼロショット予測により得られる単眼の相対深度と疎な画像対応関係を用いて、3D知識を獲得する。
  • Reliev3Rは、多義性(アンビギュイティ)を考慮した相対深度損失と、三角法に基づく再投影損失を提案し、学習中に多視点の幾何学的整合性を強制する。
  • 実験では、より少ないデータでスクラッチから学習することで、完全教師ありFFRMと同等の性能に到達できると主張しており、3D再構成のための監督をよりスケーラブルかつ低コストにすることを目指している。

Abstract

近年の進展により、フィードフォワード再構成モデル(Feed-forward Reconstruction Models: FFRMs)は、再構成品質と複数の下流タスクへの適応性において大きな可能性を示している。しかし、3Dポイントマップやカメラ姿勢などのマルチビュー幾何学的注釈への過度な依存により、FFRMの完全教師あり学習方式はスケールさせることが難しい。本論文では、コストの高いマルチビュー幾何学的注釈を伴うことなく、FFRMを最初から学習するための弱教師ありパラダイムであるReliev3Rを提案する。幾何学的センサデータへの依存や計算量の膨大な構造復元(Structure-from-Motion)の前処理を緩和し、提ラーニング済みモデルのゼロショット予測によって与えられる単眼の相対深度と画像の疎対応から、直接3D知識を引き出す。本質的なところで、Reliev3Rでは、マルチビューの幾何学的整合性のための教師信号を促進する、曖昧さを考慮した相対深度損失と三角法ベースの再投影損失を設計する。より少ないデータでスクラッチから学習することで、Reliev3Rは完全教師ありの姉妹モデルに追いつき、低コストな3D再構成の教師付けと、スケーラブルなFFRMへ向けた一歩を踏み出す。

広告