DroneScan-YOLO:UAV画像における微小物体のための冗長性を考慮した軽量検出

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、計算制約や悪条件下でのUAV画像における微小物体の検出を改善することを目的に設計された、YOLOv8ベースの空中検出器「DroneScan-YOLO」を提案する。
  • 標準的なYOLOが抱える3つの主要な失敗モード((1) 最小ストライドが不十分(8px)、(2) 重なりのない微小ボックスに対する損失関数の勾配問題、(3) アーキテクチャ上のフィルタ冗長性)に着目する。
  • 提案手法は、4つの連携した変更を組み合わせる: (1) 入力解像度を1280×1280へ引き上げる、(2) RPA-Block による動的な冗長性を考慮したフィルタ剪定、(3) ストライド4に軽量な P2 ブランチ(MSFD)を追加、(4) 正規化ワッサースタイン距離に基づくハイブリッド損失 SAL-NWD と、サイズ適応型の CIoU 重み付けを導入する。
  • VisDrone2019-DETでの実験により、YOLOv8sベースラインに対して大きな改善が得られ、mAP@50は55.3%、mAP@50-95は35.6%に到達する。再現率は0.374から0.518へ向上しつつ、リアルタイム性能は維持され(96.7 FPS、パラメータ増加は+4.1%のみ)、。
  • 改善は特に微小物体クラスで顕著であり、例えば自転車のAP@50は0.114から0.328へ、awning-tricycleは0.156から0.237へ上昇しており、本手法が32px未満のターゲットに対して有効であることが示される。

Abstract

UAV画像における空中物体検出は、微小物体が非常に多いこと、悪条件の環境、そして厳しい計算制約により、固有の課題を持ちます。標準的なYOLOベースの検出器はこれらを同時に解決できません。検出の最小ストライドが8ピクセルのため、32px未満の物体はほぼ検出不能であり、CIoU損失は重なりのない微小ボックスに対してゼロの勾配を生み出し、さらにアーキテクチャ内に大きなフィルタ冗長性が含まれています。私たちは、これらの制限を4つの協調的な設計選択によって克服する、総合的なシステム貢献としてDroneScan-YOLOを提案します:(1) 微小物体のための空間的な詳細を最大化するために入力解像度を1280x1280に増加させる、(2) 10エポックのウォームアップ期間を伴う遅延コサイン類似度更新に基づく動的フィルタ剪定機構であるRPA-Block、(3) ストライド4の軽量なP2検出ブランチで、114,592パラメータのみを追加する(+1.1%)、(4) 正規化ワッサースタイン距離(Normalized Wasserstein Distance)とサイズ適応型CIoU重み付けを組み合わせたハイブリッド損失SAL-NWDを、YOLOv8のTaskAligned割り当てパイプラインに統合する。VisDrone2019-DETで評価した結果、DroneScan-YOLOは55.3% mAP@50および35.6% mAP@50-95を達成し、それぞれYOLOv8sのベースラインを+16.6点、+12.3点上回ります。再現率は0.374から0.518へ改善し、パラメータ増加は+4.1%にとどめながら、推論速度は96.7 FPSを維持します。改善は微小物体クラスで特に顕著であり、自転車のAP@50は0.114から0.328へ(+187%)、覆い(awning-tricycle)は0.156から0.237へ(+52%)向上します。