A3-FPN:高密度視覚予測のための漸近的コンテンツ対応ピラミッド注意ネットワーク
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、特に小さな物体に対して識別的なマルチスケール特徴をより適切に捉えることで、高密度視覚予測を改善することを目的とした「A3-FPN(Asymptotic Content-Aware Pyramid Attention Network)」を提案する。
- A3-FPNは、漸近的にグローバルな特徴の相互作用を可能にし、各ピラミッドレベルを階層的表現から切り離すための、漸近的に分離された枠組みを備えた水平方向に拡張したカラム型ネットワークを用いる。
- 特徴融合では、コンテンツに応じた注意(content-aware attention)を導入し、隣接するレベルから補助的な文脈を集めて、文脈に応じたリサンプリングのための位置ごとのオフセット/重みを計算し、さらに深い文脈の再重み付けを適用して同一カテゴリ内での類似性を強化する。
- 特徴の再組み立て(reassembly)では、同一スケール内の識別的学習を強化し、特徴マップの情報量と空間的な変動性を用いて冗長な特徴を再組み立てする。
- MS COCO、VisDrone2019-DET、Cityscapesでの実験により、A3-FPNはCNNおよびTransformerベースのSOTAアーキテクチャの両方に組み込めることが示されており、OneFormer + Swin-LでマスクAP 49.6、CityscapesでmIoU 85.6といった強い結果が報告されている。




