PoseFM:Flow Matchingによる相対カメラ姿勢推定

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PoseFMは、単眼のフレーム間ビジュアルオドメトリ(VO)を「生成タスク」として捉え直し、Flow Matching(FM)でカメラ姿勢推定を行う新しい枠組みを提案します。
  • 決定論的な回帰ではなく、カメラモーションを分布として扱い、連続時間のODEを用いてノイズから現実的な姿勢予測へ変換することで、不確実性を原理的に推定できるようにしています。
  • TartanAir、KITTI、TUM-RGBDといった主要ベンチマークで評価し、軌跡推定誤差(ATE)で一部の軌跡において最良の結果を含むなど、既存の最先端フレーム間単眼VOと競争力のある性能を示したと報告されています。
  • コードとモデルチェックポイントはGitHubで公開予定で、公開URLも提示されています。

Abstract

単眼視覚オドメトリ(VO)は、自律航法、拡張現実(AR)などへの応用を持つ、基本的なコンピュータビジョン問題です。近年、深層学習ベースの手法は、手作りの特徴が構造の乏しさや照明条件の悪さによってうまく機能しない環境において、従来の幾何学的パイプラインに比べて優れた精度を示してきました。しかし、これらの多くは決定論的回帰に依存しており、頑健なアプリケーションに必要とされる不確実性への認識が欠けています。我々は、Flow Matching(FM)を用いて単眼のフレーム間VOを生成タスクとして再定式化する、最初のフレームワークであるPoseFMを提案します。FMを活用することで、カメラ運動を点推定ではなく分布としてモデル化し、連続時間ODEによってノイズを現実的な姿勢予測へと変換することを学習します。このアプローチは、不確実性推定のための原理的な仕組みを提供し、困難な視覚条件下でも頑健な運動推定を可能にします。評価の結果、PoseFMはTartanAir、KITTI、TUM-RGBDのベンチマークで強い性能を達成し、いくつかの軌跡において最も低い絶対軌跡誤差(ATE)を記録しました。また、全体として、最良のフレーム間単眼VO手法群と競争力のある性能を示しました。コードおよびモデルのチェックポイントは https://github.com/helsinki-sda-group/posefm で公開されます。