NEMESIS:ノイズ抑制による高効率MAEと強化されたスーパー パッチ統合戦略
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- NEMESISは3D CTボリュームに対する自己教師あり学習のためのマスク付きオートエンコーダ(MAE)フレームワークであり、局所的な128×128×128の「スーパー パッチ」を用いて、解剖学的な詳細を維持しながらメモリ要求を削減します。
- この手法は、ノイズ強調の再構成タスクによって前処理(pretext)学習を改善し、並列な面(plane)方向と軸(axis)方向のトークン除去による二重マスキングを適用するMasked Anatomical Transformer Blocks(MATB)を採用します。
- さらに、従来のマスキングではうまく表現できない異方的なCT構造をより適切に捉えるため、クロススケールの文脈集約のためのNEMESIS Tokens(NT)を追加します。
- BTCVのマルチオーガン・ベンチマークにおいて、NEMESISは固定バックボーン+線形分類器の設定で平均AUROC 0.9633を達成し、完全にファインチューニングしたSuPreMおよびVoCoを上回ります。
- さらに、ラベルが少ない設定(注釈10%のみ)でもAUROC 0.9075に到達し、全ボリューム基線(985.8 GFLOPs)に比べて計算量を大幅に削減(31.0 GFLOPs)します。




