適応的スライシング支援ハイパー推論による高解像度画像での小物体検出の強化

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、高解像度の航空・衛星画像における小物体検出を改善するために、Adaptive Slicing-Assisted Hyper Inference(ASAHI)を提案しています。
  • 固定サイズのパッチ分割ではなく、学習した閾値に基づいて画像解像度から最適な分割数(6または12)を動的に決め、冗長な計算の削減を狙っています。
  • slicing-assisted fine-tuning(SAF)として、学習時に高解像度全体画像とスライス画像パッチの両方を用いることで、検出精度を保ちながら小物体に有利な受容野拡大の効果を得ます。
  • 混雑したシーンではCluster-DIoU-NMS(CDN)により、幾何学的な統合効率と中心距離を考慮したDIoUベースの重複抑制を組み合わせて堅牢に重複を除去します。
  • VisDrone2019とxViewでの実験では、VisDrone2019-DET-valで56.8%、xView-testで22.7%の最先端性能を達成し、SAHI基準手法より推論時間を20〜25%削減しています。

要旨: 深層学習ベースの物体検出器は、多数のコンピュータビジョン応用において目覚ましい成功を収めてきましたが、高解像度の航空・衛星画像における小物体検出には、依然として苦戦しています。高密度な物体分布、撮影角度のばらつき、標的の極小サイズ、クラス間の大きな多様性といった要因が、手強い課題を突きつけます。高解像度画像を扱いやすいパッチに分割する既存のスライシング戦略は、小物体に対する有効受容野を拡大するうえで有望な結果を示しています。しかし、それらは固定されたスライス寸法に依存しているため、重要な冗長計算が生じ、推論コストが増大して検出速度を損ないます。本論文では、固定のスライスサイズを指定する発想から、画像解像度に応じて最適なスライス数を適応的に決定することでパラダイムを転換し、隣接パッチ間の有益な重なりを維持しつつ冗長計算を大幅に抑える、新しいスライシング枠組みである\textbf{Adaptive Slicing-Assisted Hyper Inference (ASAHI)}を提案します。ASAHIは、相乗効果のある3つの要素を統合しています:(1)学習されたしきい値に基づき、解像度を認識して動的に6枚または12枚の重なりパッチを生成する適応的解像度対応スライシングアルゴリズム、(2)フル解像度画像とスライス画像パッチの両方からなる拡張学習データを構築するスライシング補助による微調整(SAF)戦略、(3)混雑シーンにおける堅牢な重複除去を実現するために、Cluster-NMSの幾何学的マージ効率とDIoU-NMSの中心距離を考慮した抑制を組み合わせるCluster-DIoU-NMS(CDN)後処理モジュール。VisDrone2019およびxViewに対する大規模な実験により、ASAHIがVisDrone2019-DET-valで56.8%、xView-testで22.7%を達成し、最先端の性能を実現することを示し、さらにベースラインのSAHI法と比較して推論時間を20〜25%削減することを確認しました。