CTSCAN:胸部CTセグメンテーションにおける評価漏洩と、患者非重複ベンチマークの再現可能性

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、学習・テスト分割に同一患者のスライスが混ざることで、胸部CTセグメンテーションの報告性能が過大評価されがちだと指摘しています。
  • 患者非重複(ケース非重複)条件で評価できることを目的に、CTSCANという再現可能なマルチソース・ベンチマークおよび研究スタックを提案します。
  • FPN+EfficientNet-B0の同一ベースラインを用いたマルチシードの検証により、スライス混在(slice-mixed)からケース非重複(case-disjoint)へ切り替えると大幅に性能が低下することを示しています(foreground Dice:0.6665→0.2066、foreground IoU:0.5031→0.1181)。
  • 患者の再利用を排除した効果として、foreground Diceが0.4599絶対減(相対で69%減)、foreground IoUが0.3850絶対減(相対で76.52%減)と定量化しています。
  • CTSCANは決定論的な分割マニフェスト、弱教師ありの制御、マルチシード手順のスクリプト化、再現可能な図生成を含み、公平な比較の基盤を提供します。

要旨: 報告されている胸部CTセグメンテーションの性能は、学習とテストの分割が同一の検査(study)からのスライスを混在させる場合、強く過大評価され得ます。私たちは、患者分離(patient-disjoint)による評価のもとで「何が残るか」を測定することを目的とした、再現可能なマルチソース胸部CTベンチマークおよび研究スタックであるCTSCANを提示します。現在の4クラスのアーティファクトはPleThora、MedSeg SIRM、LongCIUから89症例を集約しており、元のスライス-PNGワークフローが学習、検証、テストにわたって症例の再利用をほぼ完全に誘発することを示します。プレイグラウンド環境を用いて、スライス混在評価と症例分離評価の両方で、同一のFPNに加えてEfficientNet-B0の制御構成を使った、多シードのプロトコルスイープを実行します。3つのシード、それぞれ12エポックにおいて、スライス混在プロトコルは前景Diceが0.6665、前景IoUが0.5031に到達し、一方で症例分離プロトコルはDiceが0.2066、IoUが0.1181に到達します。したがって、患者の再利用を取り除くと、前景Diceは絶対値で0.4599低下(相対69.00%減)し、前景IoUは絶対値で0.3850低下(相対76.52%減)します。CTSCANは、決定論的な分割マニフェスト、明示的な弱教師あり(weak-supervision)制御、スクリプト化された多シードのプロトコルスイープ、再現可能な図の生成を備えた修正済みベンチマークをパッケージ化しており、患者分離の胸部CT評価のための再利用可能な基盤を提供します。