SceneGlue:シーンレベルのアノテーションなしで特徴マッチングを行う、シーン認識型トランスフォーマ

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SceneGlueは、クロスビュー画像間の特徴マッチングにおけるローカル記述子の制約を、シーン全体の文脈を取り込むことで補うシーン認識型フレームワークを提案しています。
  • その中核は、局所記述子同士を画像内外で同時に情報交換するimplicitな並列attentionと、特徴の可視/不可視を推定するVisibility Transformerの組み合わせです。
  • SceneGlueは、シーンレベルのアノテーション(地上真値)を必要とせず、局所特徴マッチのみで学習できる設計になっています。
  • ホモグラフィ推定、姿勢推定、画像マッチング、視覚的ローカライゼーションなど複数のタスクで、精度・頑健性・解釈可能性の面で既存手法より優れていると報告されています。
  • 実験とともにソースコードが公開されており、再現性と利用可能性も意識されています。

要旨: ローカル特徴のマッチングは、異なる視点間の画像の対応関係を理解する上で重要な役割を果たします。しかし従来の手法は、特徴記述子の本質的なローカル性によって制約されており、正確なクロスビュー対応に不可欠な、非ローカルなシーン情報を捉える能力が限られます。本論文では、これらの制約を克服するために設計された、シーン認識型特徴マッチングフレームワークであるSceneGlueを提案します。SceneGlueは、暗黙的な並列注意と、明示的なクロスビューの可視性推定を統合する、ハイブリダイズ可能なマッチング・パラダイムを活用します。並列注意機構は、画像内および画像間のローカル記述子同士で情報を同時に交換し、シーンのグローバルな文脈を強化します。さらにシーン認識をより豊かにするために、可視性Transformerを提案します。この手法は、特徴を可視領域と不可視領域に明示的に分類し、クロスビューにおけるシーンの可視性を理解することを可能にします。明示的かつ暗黙的なシーンレベルの認識を組み合わせることで、SceneGlueはローカル記述子の制約を効果的に補償します。特にSceneGlueは、シーンレベルのグラウンドトゥルース注釈を必要とせず、ローカル特徴のマッチのみを用いて学習されます。このシーン認識型のアプローチは、従来手法と比べて精度と頑健性を向上させるだけでなく、解釈可能性も高めます。ホモグラフィ推定、ポーズ推定、画像マッチング、視覚的ローカライゼーションといった応用に対する広範な実験により、SceneGlueが優れた性能を示すことが検証されています。ソースコードは https://github.com/songlin-du/SceneGlue で公開されています。