A3-FPN：高密度視覚予測のための漸近的コンテンツ対応ピラミッド注意ネットワーク

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、特に小さな物体に対して識別的なマルチスケール特徴をより適切に捉えることで、高密度視覚予測を改善することを目的とした「A3-FPN（Asymptotic Content-Aware Pyramid Attention Network）」を提案する。
A3-FPNは、漸近的にグローバルな特徴の相互作用を可能にし、各ピラミッドレベルを階層的表現から切り離すための、漸近的に分離された枠組みを備えた水平方向に拡張したカラム型ネットワークを用いる。
特徴融合では、コンテンツに応じた注意（content-aware attention）を導入し、隣接するレベルから補助的な文脈を集めて、文脈に応じたリサンプリングのための位置ごとのオフセット／重みを計算し、さらに深い文脈の再重み付けを適用して同一カテゴリ内での類似性を強化する。
特徴の再組み立て（reassembly）では、同一スケール内の識別的学習を強化し、特徴マップの情報量と空間的な変動性を用いて冗長な特徴を再組み立てする。
MS COCO、VisDrone2019-DET、Cityscapesでの実験により、A3-FPNはCNNおよびTransformerベースのSOTAアーキテクチャの両方に組み込めることが示されており、OneFormer + Swin-LでマスクAP 49.6、CityscapesでmIoU 85.6といった強い結果が報告されている。

Abstract

多尺度表現を学習することは、密な予測タスクにおける物体スケールの変動に対処するための一般的な戦略です。既存の特徴ピラミッドネットワークは視覚認識を大きく前進させてきましたが、内在する設計上の欠陥により、識別的特徴の捉えや小さな物体の認識が阻害されています。本研究では、漸近的に解きほぐされた枠組みとコンテンツに応じた注意（attention）モジュールにより、多尺度特徴表現を拡張するAsymptotic Content-Aware Pyramid Attention Network（A3-FPN）を提案します。具体的には、A3-FPNは水平に広がったカラム（列）型ネットワークを採用し、漸近的に大域的な特徴の相互作用を可能にするとともに、階層的表現のすべてから各レベルを解きほぐします。特徴融合（feature fusion）では、隣接レベルから補助的なコンテンツを収集して、位置ごとのオフセットと重みを生成し、コンテキストに応じたリサンプリングを実現します。また、深いコンテキストの再重み付けを学習することで、カテゴリ内の類似性を改善します。特徴再組み立て（feature reassembly）では、さらに、同一スケール内の識別的特徴学習を強化し、特徴マップの情報量と空間変動に基づいて冗長な特徴を再組み立てします。MS COCO、VisDrone2019-DET、Cityscapes に対する大規模な実験により、A3-FPNは最先端のCNNおよびTransformerベースのアーキテクチャに容易に統合でき、大きな性能向上が得られることが示されています。特に、OneFormerおよびSwin-Lバックボーンと組み合わせた場合、MS COCOで49.6のmask AP、Cityscapesで85.6のmIoUを達成します。コードは https://github.com/mason-ching/A3-FPN で公開されています。