ロボット支援手術における手術器具のセグメンテーションのための、CNN系およびTransformer系モデルのベンチマーク

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、SAR-RARP50データセットを用いて手術器具のマルチクラス意味セグメンテーションを行い、5つの深層学習アーキテクチャ（UNet、Attention UNet、DeepLabV3、SegFormerのバリアント）をベンチマークする。
モデルは、クラス不均衡への対応と実世界の前立腺全摘除術（ラジカルプロステクトミー）動画における境界の輪郭描写の改善のため、複合損失（Cross Entropy + Dice）で学習する。
UNetやAttention UNetのような畳み込みベースラインは強力な性能を示すが、DeepLabV3はアトラス畳み込みとマルチスケールの文脈集約により、SegFormerと同程度の結果を示す。
TransformerベースのSegFormerモデルは、より優れたグローバルな文脈理解を提供し、異なる器具の見え方や手術条件にまたがる汎化性を向上させる。
本論文は、手術AIにおけるモデル選択のための実践的な指針を提示し、畳み込みによる局所的特徴処理と、Transformerによるグローバル文脈モデリングの間のトレードオフを強調している。

Abstract

ロボット支援手術における外科用器具の正確なセグメンテーションは、ツール追跡、ワークフロー解析、自律的な意思決定といった状況認識に基づくコンピュータ支援介入を可能にするために極めて重要である。本研究では、実世界の根治的前立腺摘除術の動画における外科用器具のマルチクラス意味セグメンテーションについて、SAR-RARP50データセットを用いて5つの深層学習アーキテクチャ――UNet、UNet、DeepLabV3、Attention UNet、SegFormer――をベンチマークした。モデルは、クラス不均衡に対処し、細かな対象物の境界を捉えるために、Cross Entropy損失とDice損失を組み合わせた複合損失関数で学習する。実験の結果、UNetやAttention UNetのような畳み込みモデルは強力なベースライン性能を示す一方で、DeepLabV3はSegFormerと同等の結果を達成し、複雑な外科手術シーンを捉える上での拡張畳み込み（atrous convolution）とマルチスケールの文脈集約の有効性が示された。SegFormerのようなトランスフォーマーベースのアーキテクチャは、さらにグローバルな文脈理解を強化し、さまざまな器具の見え方や手術条件にわたって汎化性能が向上する。本研究は、外科AIアプリケーションにおけるセグメンテーションモデル選択のための包括的な比較と実践的な知見を提供し、畳み込み手法とトランスフォーマーベース手法の間のトレードオフを明らかにする。