DeltaSeg:層状アテンションとディープ・デルタ・ラーニングによる多クラスの構造欠陥セグメンテーション

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

要点

  • DeltaSegは、多様な損傷タイプによるクラス不均衡や、境界の高精度な切り分けが必要という課題に対して、検査画像からの多クラス構造欠陥セグメンテーション性能を高めることを目的としたU字型エンコーダ・デコーダモデルです。
  • このアーキテクチャは、複数段階でのティア付きアテンション(エンコーダでSEチャネル注意、ボトルネックとデコーダでCoordinate Attention、スキップ接続でDeep Delta Attention)を用い、不要(ノイズ)特徴の抑制と空間的な注目の強化を行います。
  • DeltaSegは、空間解像度を維持しつつ受容野を拡大するためにdepthwise separable畳み込みとダイレート段を組み合わせ、ボトルネックにはASPPで多尺度の文脈を捉えます。
  • 学習を安定化し、デコーダの中間表現で意味のある特徴を促すために、多尺度の補助ヘッドによるディープスーパービジョンを適用します。
  • S2DS(7クラス)とCSDD(9クラス)の2データセットでDeltaSegは12の既存セグメンテーション手法を上回り、損傷タイプ、撮像条件、構造の幾何にまたがって頑健に一般化できることを示します。

概要: 構造欠陥の自動セグメンテーションは、損傷タイプの多様性、極端なクラス不均衡、そして境界を正確に切り分ける必要性のため、視覚検査画像からの実現は依然として困難です。本論文では、デルタセグ(DeltaSeg)を提案します。DeltaSegは、階層型アテンション戦略を統合したU字型のエンコーダ-デコーダアーキテクチャであり、エンコーダにはSqueeze-and-Excitation(SE)チャネル注意、ボトルネックおよびデコーダにはCoordinate Attention、さらにスキップ接続には新しいDeep Delta Attention(DDA)機構を用います。エンコーダでは、空間解像度を維持しつつ受容野を拡大するために、拡張(dilated)ステージ付きの深さ方向分離畳み込みを用います。ボトルネックではAtrous Spatial Pyramid Pooling(ASPP)により多尺度の文脈を捉えます。DDAモジュールは、不要特徴の抑制のために学習されたデルタ演算子と、デコーダ信号に条件付けされた空間注意ゲートを組み合わせる二経路方式によってスキップ接続を洗練します。マルチスケールの補助ヘッドによる深い監督(deep supervision)は、勾配伝播をさらに強化し、中間のデコーダ段階で意味論的に有意な特徴を促します。DeltaSegを2つのデータセットで評価します。S2DSデータセット(7クラス)と、Culvert-Sewer Defect Dataset(CSDD、9クラス)です。両方のベンチマークにおいて、DeltaSegはU-Net、SA-UNet、UNet3+、SegFormer、Swin-UNet、EGE-UNet、FPN、Mobile-UNETRを含む12の競合アーキテクチャに対して一貫して優れた性能を示し、損傷タイプ、撮像条件、構造の幾何にまたがって強い汎化能力を実証しています。