PoseFM：Flow Matchingによる相対カメラ姿勢推定

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PoseFMは、単眼のフレーム間ビジュアルオドメトリ（VO）を「生成タスク」として捉え直し、Flow Matching（FM）でカメラ姿勢推定を行う新しい枠組みを提案します。
決定論的な回帰ではなく、カメラモーションを分布として扱い、連続時間のODEを用いてノイズから現実的な姿勢予測へ変換することで、不確実性を原理的に推定できるようにしています。
TartanAir、KITTI、TUM-RGBDといった主要ベンチマークで評価し、軌跡推定誤差（ATE）で一部の軌跡において最良の結果を含むなど、既存の最先端フレーム間単眼VOと競争力のある性能を示したと報告されています。
コードとモデルチェックポイントはGitHubで公開予定で、公開URLも提示されています。

Abstract

単眼視覚オドメトリ（VO）は、自律航法、拡張現実（AR）などへの応用を持つ、基本的なコンピュータビジョン問題です。近年、深層学習ベースの手法は、手作りの特徴が構造の乏しさや照明条件の悪さによってうまく機能しない環境において、従来の幾何学的パイプラインに比べて優れた精度を示してきました。しかし、これらの多くは決定論的回帰に依存しており、頑健なアプリケーションに必要とされる不確実性への認識が欠けています。我々は、Flow Matching（FM）を用いて単眼のフレーム間VOを生成タスクとして再定式化する、最初のフレームワークであるPoseFMを提案します。FMを活用することで、カメラ運動を点推定ではなく分布としてモデル化し、連続時間ODEによってノイズを現実的な姿勢予測へと変換することを学習します。このアプローチは、不確実性推定のための原理的な仕組みを提供し、困難な視覚条件下でも頑健な運動推定を可能にします。評価の結果、PoseFMはTartanAir、KITTI、TUM-RGBDのベンチマークで強い性能を達成し、いくつかの軌跡において最も低い絶対軌跡誤差（ATE）を記録しました。また、全体として、最良のフレーム間単眼VO手法群と競争力のある性能を示しました。コードおよびモデルのチェックポイントは https://github.com/helsinki-sda-group/posefm で公開されます。

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

日経XTECH

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

日経XTECH

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

Dev.to

法務インサイトの変革：従来型とAI駆動型リサーチの比較

Dev.to

リーガル・インサイト・トランスフォーメーション：現代のリサーチ入門ガイド

Dev.to

PoseFM：Flow Matchingによる相対カメラ姿勢推定

要点

Abstract

関連記事

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

法務インサイトの変革：従来型とAI駆動型リサーチの比較

リーガル・インサイト・トランスフォーメーション：現代のリサーチ入門ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

光電融合の業界地図、AI需要で「バブルの様相」 日本は光源に強み

先端防衛網を突破、航続距離2倍 イラン製格安軍事ドローンの破壊力

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

法務インサイトの変革：従来型とAI駆動型リサーチの比較

リーガル・インサイト・トランスフォーメーション：現代のリサーチ入門ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力