RefAerial:航空画像における指示対象検出のためのベンチマークと手法

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、航空画像における指示対象検出(referring detection)のための大規模ベンチマーク「RefAerial」を提案し、従来の地上画像データセットの制約を克服することを目的としています。
  • RefAerialは、対象とシーンの比率が低い一方で多様であること、ターゲットとディストラクタが多数であること、複雑で細粒度の指示記述を扱うこと、航空視点の幅広く多様なシーンを含むこと、という4つの特徴を持ちます。
  • 著者らは、指示ペアを効率的に生成するための、人の関与を組み込んだ半自動アノテーション手法「REA-Engine」を開発しています。
  • 航空データではスケールの多様性に起因して既存の地上向け指示対象検出手法の性能が大きく低下することを観察し、スケール・包括性・感度(SCS)フレームワークを提案します。
  • SCSは、スケールを包括的に理解するためのmixture-of-granularity(MoG)注意機構と、粗から細へ指示対象を復号する包括的から感度へ(CtS)の2段階デコード戦略から構成され、RefAerialで優れた性能を示しつつ地上データセットでも改善が見られます。