要旨: 深層学習は、3D医用画像のセグメンテーション課題に広く適用されてきた。しかし、撮像モダリティの多様性、データの高次元性、解剖学的構造の異質性のため、多臓器セグメンテーションにおいて、セグメンテーション精度と計算効率の両方を実現することは依然として課題である。本研究では、高精度を維持しつつ効率を重視して設計された、3D医用画像セグメンテーション専用の軽量ネットワーク構成であるGPAFormerを提案した。GPAFormerは2つの中核モジュール、すなわちマルチスケール注意ガイド付きスタック集約(MASA)と相互認識パッチグラフ集約(MPGA)を組み込んだ。MASAは、受容野の異なる3つの並列経路を、平面集約を通じて組み合わせることで、さまざまなサイズの構造を扱うネットワーク能力を高めた。MPGAは、パッチ間の特徴類似度と空間的な隣接関係に基づいて、類似した特徴分布をもつ領域を動的に集約するための、グラフ誘導型の手法を用い、それにより臓器内部構造と境界構造の双方の識別性を向上させた。実験は、BTCV、Synapse、ACDC、BraTSを含む公開の全身CTおよびMRIデータセットで実施した。既存の3Dセグメンテーションネットワークと比較して、GPAFormerは1.81Mパラメータのみを用い、BTCV(75.70%)、Synapse(81.20%)、ACDC(89.32%)、BraTS(82.74%)において全体で最も高いDSCを達成した。コンシューマー向けレベルのGPUを用いることで、BTCVの1つの検証ケースに要する推論時間は1秒未満であった。これらの結果は、GPAFormerが、多臓器・多モダリティの3Dセグメンテーションにおいて、さまざまな臨床シナリオ、とりわけ資源が限られ時間に敏感な臨床環境に対して、精度と効率のバランスを取ることを示した。
GPAFormer:効率的な3D医用画像セグメンテーションのためのグラフ誘導パッチ集約トランスフォーマ
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、多様なモダリティと臓器に対する効率的かつ高精度な3D医用画像セグメンテーションを目指した、軽量なトランスフォーマベースのアーキテクチャGPAFormerを提案する。
- GPAFormerの設計は2つのモジュールを中心としている。異なるサイズの構造を扱うためのMASA(multi-scale attention-guided stacked aggregation)と、パッチ特徴の類似度および空間的隣接関係を用いてグラフ誘導による集約を行うMPGA(mutual-aware patch graph aggregator)である。
- 公開されている全身CT/MRIデータセット(BTCV、Synapse、ACDC、BraTS)での実験により、パラメータ数わずか1.81Mのみで最先端のセグメンテーション性能が報告されている。
- 報告された精度はDSCの改善を含み、BTCVで75.70%、Synapseで81.20%、ACDCで89.32%、BraTSで82.74%とされており、性能とコンパクトさのバランスが強いことを示している。
- 本手法は実運用を想定した実用的なアプローチとして提示されており、BTCVの検証ケースではコンシューマ向けGPUでサブ秒オーダーの推論を達成し、リソースが制約された臨床環境をターゲットとしている。



