要旨: 最近の軽量セマンティックセグメンテーション手法は、コンパクトなバックボーンと効率的なデコーダヘッドを組み合わせることで大きな進展を遂げています。しかし、ほとんどのマルチスケールデコーダは、各特徴スケールごとに注意(attention)を独立に計算するため、スケール間で得られる注意分布が強く相関していることから、相当な冗長性が生じます。私たちは、最深部の特徴スケールで注意を計算し、その結果得られた注意マップをより浅い段階へ伝播することで、それらの段階におけるクエリ・キー計算を完全に回避するデコーダフレームワーク、Cross-Stage Attention Propagation(CSAP)を提案します。この設計はマルチスケールの文脈的推論を維持しつつ、デコーダの計算コストを大幅に削減します。CSAP-Tinyは、GFLOPsが5.5のみでADE20Kに対して42.9% mIoU、GFLOPsが21.5のみでCityscapesに対して80.5%、GFLOPsが5.5のみでCOCO-Stuff 164Kに対して40.9%を達成し、必要な浮動小数点演算数を16.8%削減しながらADE20KでSegNeXt-Tinyを+1.8%上回ります。
効率的なセマンティックセグメンテーションのためのクロスステージ注意伝播
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多くの軽量セマンティックセグメンテーションモデルが、特徴スケールごとに注意を独立に再計算するマルチスケール・デコーダを用いているため、スケール間で注意パターンが強く相関しているにもかかわらず冗長な計算が発生すると主張している。
- そこで、深い特徴スケールでのみ注意を計算し、それらの注意マップを浅いデコーダ段へ伝播することで、各段におけるクエリ・キーの注意計算を不要にするCross-Stage Attention Propagation(CSAP)を提案する。
- CSAPは、マルチスケールの文脈的推論を維持しつつ、デコーダの計算要件を大幅に削減することを目的としている。
- 報告された結果は、高い効率と精度を示しており、CSAP-TinyはADE20Kで42.9%のmIoU(5.5 GFLOPs)、Cityscapesで80.5%(21.5 GFLOPs)、COCO-Stuff 164Kで40.9%(5.5 GFLOPs)を達成している。
- 本手法は、ADE20KにおいてSegNeXt-Tinyに対して+1.8%のmIoUを上回り、浮動小数点演算を16.8%少なくしている。これは、コンパクトなセグメンテーションモデルにとって有利な精度/計算量のトレードオフを示唆している。



