正規化マッチング・トランスフォーマー

arXiv cs.CV / 2026/5/6

📰 ニュースModels & Research

要点

  • 正規化マッチング・トランスフォーマー(NMT)は、画像ペア間のスパースな意味的キーポイント対応を効率的かつ高精度に行うための深層学習手法として提案されています。
  • NMTは、視覚バックボーン、幾何学的な特徴の改良としてSplineCNN、そして正規化されたTransformerによるマッチング特徴の計算から構成されます。
  • 中核となるのは「超球面正規化」で、Transformerの各層で埋め込みベクトルのノルムを1に制約し、InfoNCE(コントラスト学習)と超球面の一様性損失を組み合わせて学習します。
  • この設計は、対応する特徴同士を近づけ、対応しない特徴同士を遠ざけることを出力だけでなく中間層でも促します。
  • PascalVOCおよびSPair-71kで新たな最先端性能を達成し、既存手法を上回るとともに、少なくとも他の最先端基準より1.7倍少ないエポックで収束することが示されています。

Abstract

本論文では、画像ペア間の効率的かつ正確な疎なセマンティック対応点マッチングのための、深層学習アプローチである Normalized Matching Transformer(NMT)を提案します。NMT は、強力な視覚バックボーン、SplineCNN による幾何学的特徴の精緻化、その後に正規化された Transformer による対応特徴の計算から構成されます。NMT の中核となるのは、超球面(ハイパー・スフィア)正規化戦略です。Transformer の各層において埋め込みの単位ノルムを強制し、さらに対照的な InfoNCE と超球面一様性損失を組み合わせて学習することで、より識別的な対応点表現を得ます。この新規のアーキテクチャ/損失の組合せは、対応する画像特徴の近い整合と、非対応のもの同士の大きな距離を、出力レベルだけでなく各層においても促進します。アーキテクチャ自体はシンプルであるにもかかわらず、NMT は PascalVOC および SPair-71k において新たな最先端性能を達成し、BBGM、ASAR、COMMON、GMTR をそれぞれ 5.1% と 2.2% 上回ります。また、他の最先端ベースラインと比べて少なくとも 1.7 倍少ないエポック数で収束します。これらの結果は、対応付けタスクにおいて、広範な正規化と超球面学習を組み合わせることの力を裏づけています。