IUP-Pose: 暗黙的な密な整列を用いたデカップルド・反復的不確実性伝播によるリアルタイム相対姿勢回帰 v1

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Relative Pose Regression (RPR) における主要なボトルネックとして、回転と平行移動の結合と、リアルタイム性能を制限するクロスビュー特徴アライメントの不十分さを指摘します。
  • 幾何学駆動型のデカップルド・反復式フレームワークである IUP-Pose を提案します。暗黙的密集整列と軽量なマルチヘッド・バイ・クロス・アテンションモジュールを備え、明示的な RANSAC 監視なしでクロスビュー特徴を整列します。
  • 本手法は、2つの共有パラメータを持つ回転ステージを含むデカップルド回転-平行移動パイプラインを採用し、不確実性の下で回転を反復的に精緻化した後、平行移動予測の前に回転ホモグラフィー H_inf による特徴の再整列を行います。
  • MegaDepth1500 データセットで 73.3% の AUC@20度を達成し、70 FPS のスループットと 3700万パラメータを記録しており、リアルタイムのエッジデプロイメントにおける精度と効率のトレードオフを有利にすることを示しています。

要約: 相対姿勢推定はSLAM、視覚的局所化、および3D再構成の基盤となる。既存の相対姿勢回帰(RPR)手法は重要なトレードオフに直面している。特徴マッチングのパイプラインは高い精度を達成する一方、微分不可能なRANSACにより勾配伝播を遮断する。一方、ViTベースの回帰器はエンドツーエンドで訓練可能だが、リアルタイム展開には過度に高価である。我々は、回転推定と平行移動推定の結合と、クロスビュー特徴の整列不足を核心的なボトルネックとして特定する。我々はIUP-Poseを提案する。幾何学に基づくデカップルドな反復フレームワークで、暗黙の高密度整列を備えたIUP-Poseを提案する。軽量なMulti-Head Bi-Cross Attention(MHBC)モジュールは、明示的なマッチング監督なしにクロスビュー特徴を整列させる。整列された特徴は、回転と平移をデカップルドなパイプラインで処理される。共有パラメータを持つ2つの回転ステージが、回転を不確実性とともに反復的に洗練させる。平移推定の前に、特徴マップは回転ホモグラフィ H_inf によって再整列される。IUP-Poseは MegaDepth1500 で、エンドツーエンドの微分可能性を完全に保ちつつ、73.3%のAUC@20degを達成し、70 FPSのスループットとわずか37Mパラメータを実現しており、リアルタイムのエッジ展開における精度と効率の有利なトレードオフを示している。