AI Navigate

デコードの重要性: 医用画像分割のための分布を考慮した深層監督を備えた効率的な Mamba ベースのデコーダ

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Transformer-CNN-Mamba 設計を備えた U‑Net に類似した構造に基づく、汎用的な 2D 医用画像分割のデコーダ中心アーキテクチャである Deco-Mamba を提案する。
  • Co-Attention Gate (CAG)、Vision State Space Module (VSSM)、および変形畳み込み補正ブロックといった新規デコーダーコンポーネントを統合し、マルチスケールの文脈表現を強化する。
  • ウィンドウ化された分布を意識した KL ダイバージェンス損失を、複数のデコード段階における深層監督のために提案する。
  • 多様な医用画像ベンチマークにおける広範な実験は、妥当なモデルの複雑性を維持しつつ、最先端の性能と強力な一般化能力を報告している。
  • 著者らは、受理された場合にソースコードを公開する予定であることを示している。

要旨: 深層学習は医用画像セグメンテーションにおいて顕著な成功を収め、腫瘍や組織を輪郭づける際には専門家レベルの精度に到達することが多い。しかし、既存の多くのアプローチはタスク特異的で、個々のデータセットで高い性能を示す一方で、さまざまな画像モダリティ間での一般化には限界がある。さらに、多くの手法はエンコーダに主眼を置き、大規模な事前学習バックボーンに依存して計算コストを増大させる。本論文では、一般化された2D医用画像セグメンテーションのためのデコーダ中心アプローチを提案します。提案手法 Deco-Mamba は、Transformer-CNN-Mamba デザインを備えた U-Net ライクな構造に従う。エンコーダは効率的な特徴抽出のためにCNNブロックとTransformerバックボーンを組み合わせ、デコーダは新規の Co-Attention Gate (CAG)、Vision State Space Module (VSSM)、および変形可能畳み込みリファインメントブロックを統合して、マルチスケールの文脈表現を強化する。さらに、複数のデコーディング段階における深層監督のために、ウィンドウ化された分布認識KL発散損失が導入される。多様な医用画像セグメンテーションのベンチマークにおける広範な実験は、最先端の性能と強力な一般化能力を示しつつ、適度なモデルの複雑さを維持する。ソースコードは受理され次第公開される。