RATICデータセットを対象とした腹部多臓器セグメンテーションのためのCNNベースモデルとトランスフォーマーベースモデルのベンチマーク

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、体積データを用いた多臓器セグメンテーションを対象として、RATICデータセット上でUNETR、SwinUNETR、UNETR++ の3つのハイブリッドトランスフォーマーベースモデルをCNNベースの基準モデルSegResNetと比較評価した。RATICデータセットは、23機関から収集された206件のCTスキャンから成り、5つの腹部臓器を対象としている。
同一の前処理およびトレーニング条件の下で、CNNベースのSegResNetが総合Dice相似係数で最高値を達成し、全臓器においてすべてのトランスフォーマーベースモデルを上回った。
トランスフォーマー系のアプローチの間では、UNETR++ が最も競争力が高く、UNETR はより少ない訓練反復回数でより速く収束することを示した。
この所見は、小規模から中規模の異質データセットに対して、適切に最適化されたCNNアーキテクチャが高い競争力を維持し、ハイブリッドなトランスフォーマー設計を上回る可能性があることを示唆している。

要約：腹部CTスキャンにおける正確な多臓器セグメンテーションは、コンピュータ支援診断と治療にとって不可欠です。医用画像分割では、畳み込みニューラルネットワーク（CNN）は長らく標準的なアプローチでしたが、長距離依存性をモデル化できる能力から、トランスフォーマーに基づくアーキテクチャが最近注目を集めています。
本研究では、異種のRATICデータセットを対象に、ボリューム画像の多臓器セグメンテーションにおける3つのハイブリッドトランスフォーマーベースモデル UNETR、SwinUNETR、UNETR++ を、強力なCNNベースラインSegResNetと比較評価するベンチマークを系統的に行います。データセットは世界23機関から提供された206件の注釈付きCTスキャンから成っており、5つの腹部臓器を対象としています。すべてのモデルは前処理と訓練条件を同一にして訓練・評価され、主指標として Dice Similarity Coefficient（DSC）を用いました。結果は、CNNベースのSegResNetが総合的な性能で最高を達成し、すべての臓器においてすべてのハイブリッドトランスフォーマーベースモデルを上回ることを示しています。トランスフォーマー系アプローチの中では、UNETR++ が最も競争力のある結果を示し、UNETR は訓練反復数が少ないにもかかわらず、収束が顕著に速いことを示しています。これらの知見は、小〜中規模の異種データセットに対して、適切に最適化されたCNNアーキテクチャが依然として高い競争力を持ち、ハイブリッドトランスフォーマー設計を上回る可能性を示唆します。