効率的な3D医用画像セグメンテーションのための幾何学的クロスアテンションと非空ボクセル化

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、異なる臓器や撮像モダリティにわたって精度と計算効率の両方を向上させることを目的とした3D医用画像セグメンテーションの枠組みGCNV-Netを提案する。
  • 3つの解剖学的平面に沿ってボクセルを分割するTri-directional Dynamic Nonvoid Voxel Transformerと、多尺度特徴を明示的な幾何学的な位置情報を用いて融合するGeometrical Cross-Attentionモジュールを組み合わせる。
  • 非空ボクセル化(Nonvoid Voxelization)戦略により、情報を持つボクセル領域のみを処理することで計算量を削減し、従来のボクセル化に比べてFLOPsを56.13%、推論遅延を68.49%削減する。
  • 複数のベンチマーク(BraTS2021、ACDC、MSD Prostate、MSD Pancreas、AMOS2022)において、本手法は最先端の結果を報告し、先行の最良手法よりDiceで0.65%、IoUで0.63%、NSDで1%、HD95で約14.5%上回る。
  • 著者らは、このアプローチが強力な精度–効率バランスと、臨床導入の可能性に適した頑健性を提供すると主張している。

概要: 3D医療スキャンの正確なセグメンテーションは、臨床診断および治療計画にとって極めて重要です。しかし、既存手法は、多様な解剖学的形状や画像化モダリティにわたって、高い精度と計算効率の両立を達成できないことが多いです。これらの課題に対処するため、本研究ではGCNV-Netを提案します。これは、三方向ダイナミック・ノンボイド・ボクセルトランスフォーマ(3DNVT)、幾何学的クロスアテンションモジュール(GCA)、そしてノンボイドボクセル化を統合した新しい3D医療セグメンテーションの枠組みです。3DNVTは、3つの直交する解剖学的平面、すなわち横断(transverse)、矢状(sagittal)、冠状(coronal)の各平面に沿って、関連するボクセルを動的に分割し、複雑な3D空間的依存関係を効果的にモデリングできるようにします。GCAの仕組みは、多段階スケールでの特徴融合の過程において、幾何学的な位置情報を明示的に組み込み、その結果、微細な解剖学的セグメンテーションの精度を大幅に向上させます。一方、ノンボイドボクセル化は有益な領域のみを処理するため、セグメンテーション品質を損なうことなく冗長な計算を大きく削減し、従来のボクセル化と比較してFLOPsを56.13%削減し、推論レイテンシを68.49%削減します。私たちは、複数の広く用いられているベンチマークでGCNV-Netを評価します。具体的には、BraTS2021、ACDC、MSD Prostate、MSD Pancreas、AMOS2022です。本手法は、すべてのデータセットで最先端のセグメンテーション性能を達成し、既存の最良手法よりDiceで0.65%、IoUで0.63%、NSDで1%、またHD95で相対的に14.5%上回ります。これらのすべての結果は、GCNV-Netが精度と効率の両立を効果的に実現していること、さらに多様な臓器、疾患条件、画像化モダリティに対する頑健性が、臨床導入に向けた強い可能性を示していることを明確に示しています。