PoseFM: Relative Camera Pose Estimation Through Flow Matching

arXiv cs.CV / 4/27/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • PoseFMは、単眼のフレーム間ビジュアルオドメトリ(VO)を「生成タスク」として捉え直し、Flow Matching(FM)でカメラ姿勢推定を行う新しい枠組みを提案します。
  • 決定論的な回帰ではなく、カメラモーションを分布として扱い、連続時間のODEを用いてノイズから現実的な姿勢予測へ変換することで、不確実性を原理的に推定できるようにしています。
  • TartanAir、KITTI、TUM-RGBDといった主要ベンチマークで評価し、軌跡推定誤差(ATE)で一部の軌跡において最良の結果を含むなど、既存の最先端フレーム間単眼VOと競争力のある性能を示したと報告されています。
  • コードとモデルチェックポイントはGitHubで公開予定で、公開URLも提示されています。

Abstract

Monocular visual odometry (VO) is a fundamental computer vision problem with applications in autonomous navigation, augmented reality and more. While deep learning-based methods have recently shown superior accuracy compared to traditional geometric pipelines, particularly in environments where handcrafted features struggle due to poor structure or lighting conditions, most rely on deterministic regression, which lacks the uncertainty awareness required for robust applications. We propose PoseFM, the first framework to reformulate monocular frame-to-frame VO as a generative task using Flow Matching (FM). By leveraging FM, we model camera motion as a distribution rather than a point estimate, learning to transform noise into realistic pose predictions via continuous-time ODEs. This approach provides a principled mechanism for uncertainty estimation and enables robust motion inference under challenging visual conditions. In our evaluations, PoseFM achieves strong performance on TartanAir, KITTI and TUM-RGBD benchmarks, achieving the lowest absolute trajectory error (ATE) on some of the trajectories and overall being competitive with the best frame-to-frame monocular VO methods. Code and model checkpoints will be made available at https://github.com/helsinki-sda-group/posefm.