ロバストな相対カメラ姿勢推定のためのリレーショナル・エピポーラル・グラフ

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、サンプリング/反復に頼るのではなく、純粋に学習された幾何学のみに依存するのでもなく、エピポーラ対応グラフ上でのリレーショナル推論として相対カメラ姿勢推定を定式化する新しい枠組みを提案する。
  • 一致したキーポイントをグラフのノードとし、近傍の対応点同士をエッジで結ぶ。さらに、グラフ操作(枝刈り、メッセージパッシング、プーリング)を用いて、回転(クォータニオン)、並進、そして本質行列(Essential Matrix)を推定する。
  • 学習では、推定結果を正解と比較する複数項からなる損失関数を用いる。これには、直接の姿勢誤差に加え、本質行列を介した幾何学的制約(フロベニウス/特異値)や、ヘディング/スケールの差が含まれる。
  • 検出器不要の高密度マッチングとしてLoFTRを用い、屋内および屋外のベンチマークで実験した結果、従来手法および学習に導かれたベースラインに比べて、密なノイズや大きなベースライン変化に対するロバスト性が向上することが示される。
  • 全体として本研究は、グローバルなリレーショナルな合意によって明示的な幾何学構造を強制することで、困難な対応条件下でもVSLAMにとって重要な姿勢推定を改善できることを強調している。

Abstract

ビジュアル同時ローカライゼーションおよびマッピング(VSLAM)の重要な構成要素の1つは、対応付けられた特徴点を用いて相対カメラ姿勢を推定することです。正確な推定は、ノイズを含む対応(コレスポンデンス)によって困難になります。従来の手法は確率的仮説サンプリングと反復推定に依存しますが、学習ベースの手法はしばしば明示的な幾何学的構造を欠いています。本研究では、相対姿勢推定を、エピポーラ対応グラフ上での関係推論問題として再定式化します。ここでは、対応付けられたキーポイントをノードとし、近傍のもの同士をエッジで結びます。枝刈り(pruning)、メッセージパッシング、プーリングといったグラフ操作により、クォータニオン回転、並進ベクトル、および本質行列(Essential Matrix; EM)を推定します。損失を(i)正解(GT)との \mathcal{L}_2差、(ii)推定したEMとGTの間のフロベニウスノルム、(iii)特異値の差、(iv)方位(ヘディング)角の差、(v)スケールの差、から構成して最小化することで、画像ペア間の相対姿勢が得られます。マッチングには、検出器なしの高密度手法であるLoFTRを用います。屋内および屋外のベンチマークに対する実験では、従来手法や学習を導入した手法と比べて、高密度ノイズや大きなベースライン変動へのロバスト性が向上することが示され、グローバルな関係的コンセンサスの有効性が強調されます。