要旨:測量写真測量(photogrammetric)による3D復元は、長い間、従来型の Structure-from-Motion(SfM)および Multi-View Stereo(MVS)手法に依存してきました。これらは高い精度を提供しますが、速度とスケーラビリティに課題があります。近年、学習ベースのMVS手法が登場し、より高速かつ効率的な復元を目指しています。本研究では、代表的な従来型MVSパイプライン(COLMAP)と、最先端の学習ベース手法との比較評価を示します。これには、幾何ガイド付き手法(MVSNet、PatchmatchNet、MVSAnywhere、MVSFormer++)およびエンドツーエンドの枠組み(Stereo4D、FoundationStereo、DUSt3R、MASt3R、Fast3R、VGGT)が含まれます。異なる航空シナリオに対して2つの実験を行いました。最初の実験では、LiDAR点群によって真値の3D復元が提供されるMARS-LVIGデータセットを使用しました。2つ目の実験では、Pix4D公式サイトの公開シーンを使用し、真値はPix4Dmapperによって生成しました。すべての手法について、精度、カバレッジ、実行時間を評価しました。実験結果は、COLMAPが信頼性が高く幾何学的に整合した復元結果を提供できる一方で、より多くの計算時間を要することを示しています。従来手法が画像の登録に失敗する場合、学習ベース手法はより強力な特徴対応能力と高い頑健性を示します。幾何ガイド付き手法は通常、慎重なデータセット準備を必要とし、多くの場合、COLMAPによって生成されたカメラ姿勢または深度の事前情報に依存します。DUSt3RやVGGTのようなエンドツーエンド手法は、競争力のある精度と妥当なカバレッジを達成しつつ、実質的により高速な復元を提供します。しかし、特に困難なシナリオでは、3D復元における残差が比較的大きいという傾向があります。
写真測量3D再構成におけるマルチビュー・ステレオ手法の比較:伝統的アプローチから学習ベースまで
arXiv cs.CV / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究では、COLMAPを用いた従来型のマルチビュー・ステレオ(MVS)を、ジオメトリ誘導型およびエンドツーエンド型を含む複数の学習ベースMVS手法と比較する。
- 実験は、空撮シナリオ(LiDARから導出した地上真値を用いるMARS-LVIG、ならびにPix4Dmapperで生成した地上真値を用いるPix4Dシーン)において、精度、カバレッジ、実行時間を各手法で評価する。
- 結果として、COLMAPは幾何学的に整合した再構成を生成できるものの、一般に学習ベースの手法より計算時間が長くなることが示される。
- 従来の画像登録が失敗する場合、学習ベース手法はより強力な特徴マッチングを示し、頑健性も向上する。
- ジオメトリ誘導型の学習手法は、データセットの準備に注意が必要で、カメラ姿勢やCOLMAPから得られる深度の事前情報に依存することがある。一方、エンドツーエンド手法(DUSt3R、VGGTなど)は高速だが、困難なケースでは3Dの残差が大きくなる場合がある。

