Abstract
Transformerベースのアーキテクチャは、グローバルなセマンティック知覚において支配的なパラダイムを確立しています。しかし、それらは本質的に、自然画像に内在する深刻な空間的不均一性によって根本的な制約を受けています。具体的には、情報密度が異なる領域に対して一様なグローバル受容野を課すことは、必然的に局所的な特徴の劣化を招きます。特に、微小なターゲットで構成された高密度の競合(コンフリクト)領域では顕著です。この機械的な限界に対処するために、我々は学習不要の推論フレームワークであるViCrop-Detを提案します。これは、適応的な空間トラスト領域の縮小(shrinkage)を導入します。異常セグメンテーションにおける注意エントロピーの利用に着想を得て、ViCrop-Detは検出デコーダのクロスアテンション分布を内生的なプローブとして活用します。Spatial Attention Entropy(SAE)を用いて局所的な空間の曖昧さをヒューリスティックに評価することで、当該フレームワークは動的な空間ルーティングを実行し、計算予算を固定したまま、ターゲットの顕著性が高く、かつ認知的不確実性も高い領域にのみ割り当てます。空間トラスト領域を縮小し、高周波の局所観測を注入することで、ViCrop-Detは能動的に空間の曖昧さを解消し、アーキテクチャの修正なしに細粒度の特徴を回復させます。VisDroneおよびDOTA-v1.5に対する大規模な評価により、ViCrop-Detは競争力のある性能向上をもたらし、RT-DETR-R50およびDeformable DETRに対して一貫して+1-3 mAP@50を加えつつ、わずかな20-23 ext{%}のレイテンシオーバーヘッドに留まることが示されています。MS COCOでは、AP_{S}が改善しつつ、AP_{M}/AP_{L}は安定したままであり、グローバルな空間事前分布を損なうことなく、精密な細粒度のリファインメントが行われていることを示しています。計算量を一致させた設定では、我々の適応的ルーティング戦略は、均一なスライシングのベースラインを包括的に上回り、非常に最適化された精度-速度のトレードオフを達成します。