3Dビジュアル幾何推定のための重要要因を解き明かす

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究は、フィードフォワード型のマルチフレーム視覚幾何推定における重要な弱点(フレーム間の一貫性は向上する一方で、単一フレームの精度では強いパー・フレーム手法に劣ることがある)を扱います。
  • 大規模なアブレーション実験により、データの多様性と品質を増やすことが性能向上につながる一方で、一般的に採用される信頼度(confidence)を意識した損失や、ある種の勾配ベース損失が意図せず精度を下げる可能性があると示します。
  • パーシーケンスとパーフレームの両方による整合(alignment)を同時に行う共同監督が結果を改善し、逆にローカル領域の整合は予想外に性能を悪化させます。
  • 著者らは、深度マップ・カメラパラメータ・ポイントマップの整合を強制する整合(consistency)損失と、高解像度入力を効果的に活用する効率的なアーキテクチャの2つの改良を提案し、これらをCARVEに統合します。
  • 点群再構成、動画深度推定、カメラのポーズ/内パラ推定の各実験で、CARVEが複数ベンチマークにわたり強力で頑健な性能を示すことが報告されています。

Abstract

フィードフォワード型の視覚幾何推定は、近年めざましい進展を遂げています。しかし、重要なギャップが依然として残っています。すなわち、多フレームモデルは通常、フレーム間の一貫性をより良くしますが、単一フレームの精度に関しては、多くの場合強力な単一フレーム手法に劣ってしまいます。この観察は、厳密なアブレーション研究を通じてモデル性能を左右する重要な要因を体系的に調査する動機となります。その結果、いくつかの重要な洞察が得られました。1) データの多様性と品質をスケールアップすることで、最新の視覚幾何推定手法であっても、さらなる性能向上が可能になります。2) 一般に採用されている、信頼度を考慮した損失や勾配ベースの損失メカニズムは、意図せず性能を阻害する可能性があります。3) シーケンスごとの整合とフレームごとの整合の両方による共同監督は結果を改善しますが、局所領域の整合は驚くべきことに性能を低下させます。さらに、最適化ベース手法の利点と高解像度入力を統合するために、2つの改良を提案します。すなわち、深度マップ、カメラパラメータ、ポイントマップ間の整合を強制する整合損失関数、そして高解像度情報を活用する効率的なアーキテクチャ設計です。これらの設計を、フィードフォワード型の視覚幾何推定のための解像度強化モデルであるCARVEに統合します。点群再構成、ビデオ深度推定、カメラ姿勢/内在パラメータ推定に関する実験では、CARVEが多様なベンチマークにおいて強力で頑健な性能を達成することが示されています。