YOLOv11の謎を解く:高性能物体検出のための実践ガイド

arXiv cs.CV / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、YOLOv11をYOLOのリアルタイム物体検出ファミリーの新たな反復として提示し、特徴抽出の改善と小物体検出の強化を狙ったアーキテクチャ上の変更点を強調している。
  • YOLOv11の構成(バックボーン、ネック、ヘッド)の設計を分析し、C3K2ブロック、SPPF(Spatial Pyramid Pooling - Fast)、C2PSA(Spatial Attention付きCross Stage Partial)といった主要モジュールを取り上げている。
  • 著者らは、これらのモジュールが空間的な特徴処理を改善しつつ、YOLOのリアルタイム推論速度を維持すると主張している。
  • 先行するYOLO各バージョンとのベンチマーク比較では、推論速度が維持または向上した状態でmAP(mean Average Precision:平均適合率)が向上したと報告している。
  • 本研究はYOLOv11を、今後の研究を支えるための体系的な研究参照として位置づけ、自動運転、監視、ビデオ解析といったユースケースに適しているとしている。

要旨: YOLOv11は、リアルタイム物体検出器のYou Only Look Once(YOLO)シリーズにおける最新の反復であり、小型物体検出と特徴抽出を改善するための新しいアーキテクチャモジュールを導入しています。本論文では、バックボーン、ネック、ヘッドの各構成要素を含むYOLOv11の詳細な分析を提示します。モデルの主要な革新は、C3K2ブロック、Spatial Pyramid Pooling - Fast(SPPF)、およびC2PSA(Spatial Attentionを伴うCross Stage Partial)モジュールで、速度を維持しながら空間特徴の処理を強化します。標準ベンチマークにおいて、従来のYOLO各バージョンと比較することで、平均適合率(mAP)と推論速度の向上を示します。結果は、YOLOv11がリアルタイム能力を犠牲にすることなく優れた精度を達成することを示しており、自動運転、監視、ビデオ解析といった用途に適しています。本研究は、研究文脈の中でYOLOv11を体系化し、将来の研究のための明確な参照先を提供します。