要旨: 小物体検出は、ダウンサンプリングによる特徴の劣化、密集クラスタにおける相互の隠蔽(オクルージョン)、そして複雑な背景による干渉のため、依然として大きな課題です。本論文では、これらの問題に対処するため、RT-DETR をベースラインとして構築した周波数-空間特徴強化フレームワークである FSDETR を提案します。協調的なモデリング機構を確立することで、本手法は補完的な構造情報を効果的に活用します。具体的には、Spatial Hierarchical Attention Block(SHAB)が、局所的な詳細と大域的な依存関係の両方を捉えて、セマンティック表現を強化します。さらに、密集シーンにおける隠蔽を緩和するために、変形可能注意に基づく Intra-scale Feature Interaction(DA-AIFI)は、動的サンプリングによって有益な領域に焦点を当てます。最後に、Frequency-Spatial Feature Pyramid Network(FSFPN)は、Cross-domain Frequency-Spatial Block(CFSB)を介して周波数フィルタリングと空間エッジ抽出を統合し、微細な詳細を保持します。実験結果によると、わずか 14.7M パラメータのみで、FSDETR は VisDrone 2019 において 13.9% の APS、TinyPerson において 48.95% の AP50(tiny)を達成し、小物体ベンチマークにおいて強力な性能を示します。コードとモデルは https://github.com/YT3DVision/FSDETR で利用可能です。
FSDETR:小物体検出のための周波数・空間特徴強調
arXiv cs.CV / 2026/4/17
📰 ニュースModels & Research
要点
- 小物体検出は、ダウンサンプリングによる特徴劣化、密集シーンでの相互オクルージョン、複雑な背景による干渉によって難しい。
- 本論文では、RT-DETRを土台にした周波数・空間特徴強調フレームワーク「FSDETR」を提案し、補完的な構造情報を効果的に活用することを目指す。
- FSDETRは、局所的な細部と大域的な依存関係の両方を捉えるSpatial Hierarchical Attention Block(SHAB)を用いて、意味表現を強化する。
- 密集シーンでのオクルージョン対策として、Deformable Attention-based Intra-scale Feature Interaction(DA-AIFI)を追加し、動的サンプリングで有益な領域に焦点を当てる。
- さらに、Cross-domain Frequency-Spatial Block(CFSB)を組み込んだFrequency-Spatial Feature Pyramid Network(FSFPN)により、周波数フィルタリングと空間エッジ抽出を統合し、14.7Mパラメータという小規模で小物体ベンチマークで高い性能を示す。

