UniCorrn:2Dと3Dにまたがるユニファイド対応(Correspondence)トランスフォーマー

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、2D-2D、2D-3D、3D-3Dの幾何学的対応付けを共有重みで統一する新しい対応推定モデル「UniCorrn」を提案しています。
  • Transformerの注意(attention)が異なるモダリティ間の特徴類似性を自然に捉えられるという点を中核的な洞察としており、外観(appearance)と位置(positional)特徴を分けて保持するデュアルストリーム・デコーダを用います。
  • UniCorrnはモダリティ固有のバックボーンの後に共有エンコーダ/デコーダを配置し、スタッカブルな層によるエンドツーエンド学習と、異種モダリティ間でのクエリベース対応推定を可能にしています。
  • 深度マップから生成した疑似ポイントクラウドと、実データの3D対応アノテーションを含む多様なデータで共同学習し、2D-2D対応で競争力のある性能を示します。
  • 登録(registration)リコールにおいて、7Scenes(2D-3D)で従来比8%、3DLoMatch(3D-3D)で従来比10%の改善、つまり従来手法を上回る結果を報告しています。

要旨: 画像から画像(2D-2D)、画像からポイントクラウド(2D-3D)、ポイントクラウドからポイントクラウド(3D-3D)にまたがる視覚対応の構築は、多くの3Dビジョンタスクの基盤となっています。問題構造は類似しているにもかかわらず、既存手法はモダリティの組み合わせごとに別々のモデルを用い、タスク固有の設計を採用しています。私たちは、3つのすべてのタスクにまたがって幾何学的マッチングを統一する、共有重みを持つ最初の対応モデルであるUniCorrnを提案します。主要な着想は、Transformerの注意機構が自然に異モダリティ間の特徴の類似性を捉えるという点です。私たちは、外観特徴と位置(ポジショナル)特徴の2つのストリームを維持するデュアルストリーム・デコーダを提案します。この設計により、積み重ね可能な層によってエンドツーエンド学習を実現しつつ、異種モダリティにまたがる柔軟なクエリベースの対応推定にも対応できます。我々のアーキテクチャは、モダリティ固有のバックボーンの後に、共有されたエンコーダおよびデコーダ構成要素を用います。深度マップからの疑似ポイントクラウドと、実際の3D対応アノテーションを組み合わせた多様なデータで共同学習します。UniCorrnは2D-2Dマッチングで競争力のある性能を達成し、登録リコールにおいて、7Scenes(2D-3D)で従来の最先端手法を8%上回り、3DLoMatch(3D-3D)で10%上回ります。プロジェクトWebサイト: https://neu-vi.github.io/UniCorrn