nnFormer向け：MAEベースの自己教師あり事前学習によるデータ効率の高い医療画像セグメンテーション

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、Masked Autoencoders（MAE）を用いた自己教師あり事前学習により、nnFormerベースの体積（3D）医療画像セグメンテーションをデータ効率よく行う手法を提案している。
医療領域では専門家によるアノテーション済みデータの取得が時間・費用ともにかかるため、変換器（トランスフォーマー）型セグメンテーションが大規模なラベル付きデータを必要とし、過学習や学習不安定性が起きやすいという実務上の課題に取り組んでいる。
この手法では、ラベルなしの体積医療画像を使って入力の一部をランダムにマスクし、その欠損領域を再構成することで、解剖学的・構造的な表現を学習させる。
その後、下流タスクのセグメンテーション用データでエンコーダを追加学習（ファインチューニング）し、Diceスコアの向上、ファインチューニング中の収束の速さ、ラベル付きデータが限られる状況での汎化性能の改善が示されている。
総じて、nnFormerのようなトランスフォーマー型セグメンテーションと自己教師あり学習を組み合わせることが、医療画像解析におけるラベル不足を緩和する適切なアプローチであることを裏付ける内容となっている。

要旨: nnFormerを含むTransformerアーキテクチャは、長距離の空間的相互作用を捉えることができるため、体積医用画像セグメンテーションにおいて有望な結果を示しています。これらのモデルは高い性能を持つ一方で、大量のラベル付き学習データを必要とし、さらに過学習しやすく、学習が不安定になる可能性もあります。これは深刻な実務上の問題です。なぜなら、専門家によって注釈付けされた医用画像を取得するのは、時間がかかるだけでなく費用も高いためです。加えて、完全教師ありの従来型学習パイプラインでは、診療の現場で容易に得られる、ラベルなしの大量の医用画像データを活用できません。我々は、Masked Autoencoders（MAE）に基づく自己教師あり事前学習フレームワークによって、nnFormerの効率を高めることでこれらの欠点を解決しました。この手法では、モデルをラベルなしの体積医用画像で事前学習し、入力の一部をランダムにマスクした箇所を再構成させます。これにより、エンコーダは意味のある解剖学的・構造的表現を学習することができます。次に、下流のセグメンテーション課題において、エンコーダをラベル付きデータセットでさらに微調整します。実施した実験では、提案手法がDiceスコアの観点でセグメンテーション性能をより高めること、微調整手順の過程においてより速い収束率を示すこと、そして限られたラベル付きデータに基づく優れた汎化性能を達成することが示されました。これらの結果は、自己教師あり学習とTransformerベースのセグメンテーションモデルを組み合わせることが、医用画像解析におけるデータ不足という課題に対して適切なアプローチであることを裏付けています。