非整列UAV RGB-T画像のセマンティックセグメンテーション向けグラフベース意味キャリブレーションネットワークと大規模ベンチマーク

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、センサーのパララックスや振動によるクロスモーダルな位置ずれと、俯瞰視点での微細な意味の取り違えに対処するため、GSCNetというグラフベースの意味キャリブレーションネットワークを提案している。
FDAM（Feature Decoupling and Alignment Module）では、各モダリティの特徴を「共有する構造」と「各モダリティ固有の知覚」に分離し、共有部分空間で変形可能なアラインメントを行うことで、外観干渉を抑えた頑健な空間補正を実現する。
SGCM（Semantic Graph Calibration Module）では、地上物体カテゴリの階層的な分類体系と共起規則性を構造化されたカテゴリグラフとして明示的に符号化し、グラフ注意（graph-attention）推論により、見た目が似たクラスや稀なクラスの予測をキャリブレーションする。
さらに、現実的なクロスモーダルな位置ずれを含む25,000枚超の画像ペアを61カテゴリで収録した、非整列UAV RGB-Tセグメンテーション向けの大規模微細ベンチマークURTFを公開し、GSCNetが既存手法を大きく上回ることを実験で示している。