WUTDet：高密度な小物体に対応するための10万規模の船舶検出データセットとベンチマーク

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、WUTDetという大規模船舶検出データセットを導入する。全100,576枚の画像と、381,378件の注釈付き船舶インスタンスを収集し、小物体の出現頻度や、多様で難しい海上映像条件をより良くカバーすることを目的としている。
WUTDetには、港湾、停泊地、航行、着岸などの多様な運用シナリオに加え、霧、まぶしさ（ぎらつき）、低照度、雨といった環境要因が含まれており、より頑健な検出評価を支える。
WUTDetを用いて著者らは、CNN、Transformer、Mambaファミリの20種類のベースライン検出器をベンチマークし、全体としてはTransformerが最も良好であり、小物体に対しても優れていることを示す。一方でCNNは推論効率が高く、Mambaは精度と計算量のバランスが良い。
著者らはさらに、Ship-GENという統一的なクロスデータセットのテストセットも作成し、WUTDetで学習したモデルが異なるデータ分布間でより良く一般化できることを示している。
データセットおよびベンチマークはGitHubで公開されており、複雑な海上シーンにおける船舶検出と一般化に関するさらなる研究を可能にする。

要旨: 航行のための船舶検出は、知能的な水上輸送システムにおける基礎的な認識タスクである。しかし、既存の公開船舶検出データセットは、規模、微小物体インスタンスの割合、そしてシーンの多様性の面で依然として限界があり、そのため複雑な海上環境における検出アルゴリズムの体系的な評価と汎化に関する研究が妨げられている。そこで本研究では、大規模船舶検出データセットであるWUTDetを構築する。WUTDetは100,576枚の画像と381,378件の注釈付き船舶インスタンスを含み、港、停泊地、航行、着岸といった多様な運用シナリオに加えて、霧、まぶしさ、低照度、雨などのさまざまな撮像条件をカバーするため、大きな多様性と難しさを示す。WUTDetに基づき、CNN、Transformer、Mambaの3つの主流検出アーキテクチャからなる20のベースラインモデルを体系的に評価する。実験結果は、Transformerアーキテクチャが全体の検出精度（AP）と微小物体検出性能（APs）において優れており、複雑な海上シーンへの適応力がより強いことを示している。一方で、CNNアーキテクチャは推論効率の点で優位性を維持しており、リアルタイム用途により適している。また、Mambaアーキテクチャは、検出精度と計算効率の間で好ましいバランスを達成する。さらに、モデルの汎化性能を評価するための統一型のクロスデータセットテストセットであるShip-GENを構築する。Ship-GENに関する結果では、WUTDetで学習したモデルが、異なるデータ分布下でより強い汎化を示すことが明らかになった。これらの知見は、WUTDetが複雑な海上シナリオにおける船舶検出アルゴリズムの研究、評価、汎化分析に対して有効なデータ支援を提供することを示している。データセットは次で公開されている: https://github.com/MAPGroup/WUTDet。