FSDETR：小物体検出のための周波数・空間特徴強調

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

共有:

要点

小物体検出は、ダウンサンプリングによる特徴劣化、密集シーンでの相互オクルージョン、複雑な背景による干渉によって難しい。
本論文では、RT-DETRを土台にした周波数・空間特徴強調フレームワーク「FSDETR」を提案し、補完的な構造情報を効果的に活用することを目指す。
FSDETRは、局所的な細部と大域的な依存関係の両方を捉えるSpatial Hierarchical Attention Block（SHAB）を用いて、意味表現を強化する。
密集シーンでのオクルージョン対策として、Deformable Attention-based Intra-scale Feature Interaction（DA-AIFI）を追加し、動的サンプリングで有益な領域に焦点を当てる。
さらに、Cross-domain Frequency-Spatial Block（CFSB）を組み込んだFrequency-Spatial Feature Pyramid Network（FSFPN）により、周波数フィルタリングと空間エッジ抽出を統合し、14.7Mパラメータという小規模で小物体ベンチマークで高い性能を示す。

要旨: 小物体検出は、ダウンサンプリングによる特徴の劣化、密集クラスタにおける相互の隠蔽（オクルージョン）、そして複雑な背景による干渉のため、依然として大きな課題です。本論文では、これらの問題に対処するため、RT-DETR をベースラインとして構築した周波数-空間特徴強化フレームワークである FSDETR を提案します。協調的なモデリング機構を確立することで、本手法は補完的な構造情報を効果的に活用します。具体的には、Spatial Hierarchical Attention Block（SHAB）が、局所的な詳細と大域的な依存関係の両方を捉えて、セマンティック表現を強化します。さらに、密集シーンにおける隠蔽を緩和するために、変形可能注意に基づく Intra-scale Feature Interaction（DA-AIFI）は、動的サンプリングによって有益な領域に焦点を当てます。最後に、Frequency-Spatial Feature Pyramid Network（FSFPN）は、Cross-domain Frequency-Spatial Block（CFSB）を介して周波数フィルタリングと空間エッジ抽出を統合し、微細な詳細を保持します。実験結果によると、わずか 14.7M パラメータのみで、FSDETR は VisDrone 2019 において 13.9% の APS、TinyPerson において 48.95% の AP50（tiny）を達成し、小物体ベンチマークにおいて強力な性能を示します。コードとモデルは https://github.com/YT3DVision/FSDETR で利用可能です。

langchain-anthropic==1.4.1 の変更点

LangChain Releases

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

Dev.to

OpenAI、macOSオートメーションとメモリを備えたCodexアップデートを公開—週300万人利用

Dev.to

1.14.2

CrewAI Releases

企業のAIエージェントはそれをするべき？NanoClawとVercelが15のメッセージングアプリでの“エージェントの方針設定”と承認ダイアログを容易にする

VentureBeat

FSDETR：小物体検出のための周波数・空間特徴強調

要点

関連記事

langchain-anthropic==1.4.1 の変更点

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

OpenAI、macOSオートメーションとメモリを備えたCodexアップデートを公開—週300万人利用

1.14.2

企業のAIエージェントはそれをするべき？NanoClawとVercelが15のメッセージングアプリでの“エージェントの方針設定”と承認ダイアログを容易にする

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer