CRFT:クロスモーダル画像登録のための一貫・反復特徴フロートランスフォーマ

arXiv cs.CV / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 提案手法CRFT(Consistent-Recurrent Feature Flow Transformer)は、特徴フロー学習に基づく統一的な粗視〜精密な枠組みで、クロスモーダル画像登録を頑健に行うことを目的にしています。
  • Transformerベースであり、モダリティ非依存の特徴フロー表現を学習しつつ、特徴のアラインメントとフロー推定を同時に実行します。
  • 粗段階ではマルチスケール相関により大域対応を作り、精段階では階層的特徴融合と適応的な空間推論で局所の対応を精緻化します。
  • 幾何適応性のために、反復的な不一致ガイド付き注意と、Spatial Geometric Transform(SGT)を用いた再帰機構により、フローフィールドを段階的に修正し、特徴レベルの整合性を強めます。
  • 多様なクロスモーダル・データセットにおいて、既存手法を精度・頑健性の両面で上回ったとされ、遠隔センシング、自動運転、医療画像などへの汎用応用とコード公開が示されています。

Abstract

本稿では、頑健なクロスモーダル画像レジストレーションのための特徴フロー学習に基づく統一的な粗視→微細フレームワークである Consistent-Recurrent Feature Flow Transformer(CRFT)を提案します。CRFTは、トランスフォーマー型アーキテクチャの中でモダリティ非依存の特徴フロー表現を学習し、特徴のアライメントとフロー推定を同時に行います。粗視段階では、多尺度の特徴相関により大域的対応関係を確立し、微細段階では階層的な特徴融合と適応的な空間推論によって局所的な詳細を洗練します。幾何学的な適応性を高めるために、Spatial Geometric Transform(SGT)を伴う反復的な不一致ガイド付き注意機構により、フローフィールドを再帰的に洗練し、微細な空間的不整合を段階的に捉えつつ、特徴レベルの一貫性を強制します。この設計により、大きなアフィン変形やスケール変動下でも正確なアライメントを実現し、モダリティ間で構造の整合性を維持できます。多様なクロスモーダルデータセットに対する大規模な実験により、CRFTが精度と頑健性の両面で従来技術のレジストレーション手法を一貫して上回ることを示します。レジストレーションにとどまらず、CRFTはマルチモーダル空間対応のための汎用的なパラダイムを提供し、リモートセンシング、自律移動、医用画像分野に幅広く応用可能です。コードとデータセットは https://github.com/NEU-Liuxuecong/CRFT で公開されています。