果樹園画像における頑健なリンゴ検出のための最新オブジェクト検出器の比較研究

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、照明変化、葉の繁雑さ、密集した果実クラスター、部分的な遮蔽といった困難な条件を考慮することで、果樹園画像における頑健な単一クラスのリンゴ検出を扱う。
  • 公開データセットであるAppleBBCH81に対し、固定の訓練/検証/テスト分割と、6つの検出器(YOLOv10n、YOLO11n、RT-DETR-L、Faster R-CNN、FCOS、SSDLite320)に共通する統一評価プロトコルを用いた、制御された再現可能なベンチマークを導入する。
  • COCO形式の指標(mAP@0.5 および mAP@0.5:0.95)を用いると、YOLO11nは検証分割における厳密なローカライゼーションで最も高い性能を示す(mAP@0.5:0.95 = 0.6065;mAP@0.5 = 0.9620)。
  • さらに、本研究はデプロイにおいて閾値に依存した挙動が重要であることも示す。低い信頼度の動作点(confidence >= 0.05)では、YOLOv10nが最も高いF1スコアを達成する一方で、RT-DETR-Lは再現率は高いものの偽陽性が多く、精度は低い。
  • 全体として、結果は、検出器の選定をローカライゼーション精度だけでなく、計数、収量予測、ロボットによる収穫といった下流要件に合わせた閾値頑健性の観点からも行うことを推奨する。

Abstract

果樹園の画像における正確なりんご検出は、収量予測、果実の数え上げ、ロボットによる収穫、作物モニタリングにとって重要である。しかし、照明条件の変化、葉によるノイズ(葉のごちゃごちゃした要素)、密集した果実クラスター、部分的な遮蔽によって検出は困難になる。本研究では、公的なAppleBBCH81データセットに対して、1つの決定論的な訓練・検証・テストの分割と、6つの代表的な検出器(YOLOv10n、YOLO11n、RT-DETR-L、Faster R-CNN(ResNet50-FPN)、FCOS(ResNet50-FPN)、SSDLite320(MobileNetV3-Large))にわたって統一した評価プロトコルを用い、単一クラスのりんご検出に関する公正で再現可能なベンチマークを確立する。性能は主としてCOCO形式のmAP@0.5およびmAP@0.5:0.95で評価し、さらにしきい値に依存する挙動は、精度-再現率(PR)曲線およびIoU = 0.5における固定しきい値での精度・再現率・F1スコアを用いて詳しく分析する。検証分割では、YOLO11nがmAP@0.5:0.95 = 0.6065およびmAP@0.5 = 0.9620により、厳密な位置特定性能で最良の結果を達成し、続いてRT-DETR-LとYOLOv10nが僅差である。信頼度 >= 0.05の固定された動作点では、YOLOv10nが最高のF1スコアを達成する一方で、RT-DETR-Lは非常に高い再現率を示すが、低い信頼度で多数の偽陽性が生じるため精度が低い。これらの結果は、果樹園への導入における検出器の選定は、位置特定を意識した精度だけでなく、しきい値頑健性および下流タスクの要件によっても導かれるべきであることを示している。