MultiLoc：高速かつ頑健な視覚再ローカライゼーションのための、マルチビュー誘導型相対ポーズ回帰

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MultiLocは、複数の参照ビューとそれらのカメラ姿勢を単一のフォワードパス内で共同で融合する、マルチビュー誘導型相対ポーズ回帰（RPR）手法を提案し、高速でゼロショットの視覚再ローカライゼーションを実現します。
この手法は、限られたペアワイズ／ローカルなビューに依存するのではなく、空間的および幾何学的にグローバルに整合した理解を用いることで、頑健性を向上させます。
MultiLocは、幾何学的に関連する参照ビューを選択するための、共可視性に基づくリトリーバル戦略を追加し、ポーズ推定により有益な文脈を提供します。
WaySpots、Cambridge Landmarks、Indoor6での実験では、既存のSOTA相対ポーズ回帰手法に対して一貫して優れた性能を示し、またMegaDepth-1500、ScanNet-1500、ACIDでの結果では、回帰ベースおよび非回帰ベースの両方にわたってSOTAの相対ポーズ推定性能が確認されています。
本研究は新しい視覚再ローカライゼーションのベンチマークを提案し、コードを公開する予定であり、再現性の向上とより広い普及を支援します。

要旨: 相対姿勢回帰（RPR）は未見の環境にもよく汎化しますが、その性能はしばしば、ペアごとの局所的な空間ビューにより制限されます。そこで本研究では、規模を持って学習する新しいマルチビュー誘導RPRモデルであるMultiLocを提案します。これにより、相対姿勢回帰に対して、空間的および幾何学的理解をグローバルに一貫させた形で備えます。具体的には、提案手法は単一の順伝播で、複数の参照ビューとそれに関連するカメラ姿勢を共同で融合し、リアルタイム効率を保ちながら、正確なゼロショットの姿勢推定を可能にします。さらに、信頼性高く有益な文脈を供給するために、幾何学的に関連のある参照ビューの選択のための、共視認（co-visibility）に駆動された検索戦略も提案します。MultiLocは、視覚的な再ローカライゼーションにおいて新しいベンチマークを確立し、WaySpots、Cambridge Landmarks、Indoor6を含む多様なデータセットにおいて、既存の最先端（SOTA）の相対姿勢回帰（RPR）手法を一貫して上回ります。加えて、MultiLocの姿勢回帰器は、相対姿勢推定においてSOTAの性能を示し、MegaDepth-1500、ScanNet-1500、ACIDのベンチマークにおいて、RPR、特徴マッチング、そして非回帰ベースの手法を上回ります。これらの結果は、MultiLocが屋内、屋外、そして自然環境にわたって堅牢なドメイン汎化を示すことを裏付けています。コードは公開予定です。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

MultiLoc：高速かつ頑健な視覚再ローカライゼーションのための、マルチビュー誘導型相対ポーズ回帰

要点

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer