ViCrop-Det：空間アテンションエントロピーに導かれる学習不要のクロッピングによる小物体検出

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ViCrop-Detは、画像の空間的な不均一性によりTransformerで起きる局所特徴の劣化（一様な大域受容野の制約）を抑える、学習不要の推論フレームワークです。
検出デコーダのクロスアテンション分布から得る空間アテンションエントロピー（SAE）を用いて、局所的な空間のあいまいさを推定し、「空間トラスト領域」を適応的に縮小する動的ルーティングを行います。
計算予算は固定のまま、目標の顕著性が高くかつ不確実性も高い領域にのみ配分し、高周波の局所観測を投入することで微細な特徴を回復します。
VisDroneおよびDOTA-v1.5での評価では、RT-DETR-R50やDeformable DETRに適用して約+1〜3 mAP@50の改善が一貫して得られ、遅延オーバーヘッドはおよそ20〜23%にとどまります。
MS COCOではAP_S（小）が向上しつつAP_M/AP_Lは安定しており、計算量を揃えた比較でも一様なクロッピング/スライシングの基準を精度と速度の両面で上回る最適なトレードオフを示しています。

Abstract

Transformerベースのアーキテクチャは、グローバルなセマンティック知覚において支配的なパラダイムを確立しています。しかし、それらは本質的に、自然画像に内在する深刻な空間的不均一性によって根本的な制約を受けています。具体的には、情報密度が異なる領域に対して一様なグローバル受容野を課すことは、必然的に局所的な特徴の劣化を招きます。特に、微小なターゲットで構成された高密度の競合（コンフリクト）領域では顕著です。この機械的な限界に対処するために、我々は学習不要の推論フレームワークであるViCrop-Detを提案します。これは、適応的な空間トラスト領域の縮小（shrinkage）を導入します。異常セグメンテーションにおける注意エントロピーの利用に着想を得て、ViCrop-Detは検出デコーダのクロスアテンション分布を内生的なプローブとして活用します。Spatial Attention Entropy（SAE）を用いて局所的な空間の曖昧さをヒューリスティックに評価することで、当該フレームワークは動的な空間ルーティングを実行し、計算予算を固定したまま、ターゲットの顕著性が高く、かつ認知的不確実性も高い領域にのみ割り当てます。空間トラスト領域を縮小し、高周波の局所観測を注入することで、ViCrop-Detは能動的に空間の曖昧さを解消し、アーキテクチャの修正なしに細粒度の特徴を回復させます。VisDroneおよびDOTA-v1.5に対する大規模な評価により、ViCrop-Detは競争力のある性能向上をもたらし、RT-DETR-R50およびDeformable DETRに対して一貫して+1-3 mAP@50を加えつつ、わずかな20-23 ext{%}のレイテンシオーバーヘッドに留まることが示されています。MS COCOでは、