ロボット支援手術における手術器具のセグメンテーションのための、CNN系およびTransformer系モデルのベンチマーク
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、SAR-RARP50データセットを用いて手術器具のマルチクラス意味セグメンテーションを行い、5つの深層学習アーキテクチャ(UNet、Attention UNet、DeepLabV3、SegFormerのバリアント)をベンチマークする。
- モデルは、クラス不均衡への対応と実世界の前立腺全摘除術(ラジカルプロステクトミー)動画における境界の輪郭描写の改善のため、複合損失(Cross Entropy + Dice)で学習する。
- UNetやAttention UNetのような畳み込みベースラインは強力な性能を示すが、DeepLabV3はアトラス畳み込みとマルチスケールの文脈集約により、SegFormerと同程度の結果を示す。
- TransformerベースのSegFormerモデルは、より優れたグローバルな文脈理解を提供し、異なる器具の見え方や手術条件にまたがる汎化性を向上させる。
- 本論文は、手術AIにおけるモデル選択のための実践的な指針を提示し、畳み込みによる局所的特徴処理と、Transformerによるグローバル文脈モデリングの間のトレードオフを強調している。




