Abstract
ビジュアル同時ローカライゼーションおよびマッピング(VSLAM)の重要な構成要素の1つは、対応付けられた特徴点を用いて相対カメラ姿勢を推定することです。正確な推定は、ノイズを含む対応(コレスポンデンス)によって困難になります。従来の手法は確率的仮説サンプリングと反復推定に依存しますが、学習ベースの手法はしばしば明示的な幾何学的構造を欠いています。本研究では、相対姿勢推定を、エピポーラ対応グラフ上での関係推論問題として再定式化します。ここでは、対応付けられたキーポイントをノードとし、近傍のもの同士をエッジで結びます。枝刈り(pruning)、メッセージパッシング、プーリングといったグラフ操作により、クォータニオン回転、並進ベクトル、および本質行列(Essential Matrix; EM)を推定します。損失を(i)正解(GT)との
\mathcal{L}_2差、(ii)推定したEMとGTの間のフロベニウスノルム、(iii)特異値の差、(iv)方位(ヘディング)角の差、(v)スケールの差、から構成して最小化することで、画像ペア間の相対姿勢が得られます。マッチングには、検出器なしの高密度手法であるLoFTRを用います。屋内および屋外のベンチマークに対する実験では、従来手法や学習を導入した手法と比べて、高密度ノイズや大きなベースライン変動へのロバスト性が向上することが示され、グローバルな関係的コンセンサスの有効性が強調されます。