XAttnRes:医用画像セグメンテーションのためのクロスステージ・アテンション・リザビアル

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、医用画像セグメンテーションにおいて、事前のエンコーダ段およびデコーダ段の出力をグローバルな特徴履歴プールとして保持する新しい仕組み「Cross-Stage Attention Residuals(XAttnRes)」を提案する。
  • XAttnResは軽量な疑似クエリ・アテンションを用いることで、各段が先行する表現すべてから必要な情報を選択的に集約できるようにし、固定的な残差結合よりも性能を向上させる。
  • さらに、空間アラインメントとチャネル投影を追加し、LLM風の同一次元レイヤ間における特徴と、マルチスケールのエンコーダ-デコーダ型セグメンテーション・アーキテクチャとの間に存在する次元および解像度の差を橋渡しする。追加オーバーヘッドは最小限である。
  • 3つの画像モダリティにまたがる4つのデータセットで実験を行った結果、既存モデルにXAttnResを組み込むと一貫してセグメンテーションの改善が得られることを示した。
  • 著者らは、XAttnResが従来のスキップ接続なしでもベースラインと競合する結果を達成できると報告しており、学習されたアテンションに基づく集約によって、段間の情報伝達の一部を置き換えられることを示唆している。

Abstract

大規模言語モデル(LLMs)の分野では、最近、Attention Residuals により、これまでの全ての層出力に対する学習された選択的集約が、固定された残差接続よりも優れた性能を発揮し得ることが示されています。私たちは、エンコーダ段とデコーダ段の出力の両方を蓄積するグローバルな特徴履歴プールを維持する仕組みとして、Cross-Stage Attention Residuals(XAttnRes)を提案します。軽量な疑似クエリアテンションを通じて、各段は先行する全ての表現から選択的に集約します。LLMにおける同一次元の Transformer 層と、セグメンテーションネットワークにおけるマルチスケールのエンコーダ・デコーダ段の間にあるギャップを埋めるために、XAttnRes は、交差解像度の特徴を、無視できるオーバーヘッドで処理する空間アラインメントおよびチャネル射影の手順を導入します。既存のセグメンテーションネットワークに追加した場合、XAttnRes は4つのデータセットと3つの画像モダリティにわたって一貫して性能を向上させます。さらに、XAttnRes はスキップ接続がない場合でも単独で、ベースラインと同等の性能を達成しており、学習された集約が、従来あらかじめ決められた接続によって提供されていた段間の情報フローを回復できることを示唆しています。