広告

MAESIL:強化された自己教師あり医用画像学習のためのマスクドオートエンコーダ

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ラベル付きデータの不足に対処することを目的とした、3D医用画像(特にCT)向けの新しい自己教師あり学習フレームワーク「MAESIL」を提案する。
  • よくあるSSL手法は、CTボリュームを独立した2Dスライスとして扱うことで、軸方向の一貫性や空間的文脈を捨ててしまい、3Dの構造学習を劣化させると論じている。
  • MAESILの主要な貢献は「スーパー・パッチ」であり、3D文脈を保持しつつ計算量を管理可能にすることを狙った、3Dチャンク単位の入力要素である。
  • 本手法では、ラベルなしスキャンからより豊かな空間表現を学習するために、3Dマスクドオートエンコーダにデュアルマスキング戦略を用いる。
  • 大規模な公開CTデータセット3つでの実験により、MAESILはAE、VAE、VQ-VAEのようなベースラインよりも再構成品質(PSNRやSSIMなど)を改善し、下流の3Dタスクに対する実用的な事前学習オプションとして位置付けられる。

要旨: コンピュータ断層撮影(CT)のような3次元(3D)医用画像のための深層学習モデルの学習は、ラベル付きデータの不足によって根本的に困難です。自然画像での事前学習は一般的ですが、これにより大きなドメインシフトが生じ、性能が制限されます。ラベルなしの医用データに対する自己教師あり学習(SSL)が強力な解決策として登場していますが、主要な枠組みの多くはCTスキャンに内在する3Dの性質をうまく活用できていません。これらの手法は通常、3Dスキャンを独立した2Dスライスの集合として処理し、その方法は重要な軸方向の一貫性と3D構造的文脈を根本的に捨て去ってしまいます。この制約に対処するために、3D構造情報を効率的に捉えることを目的とした、新しい自己教師あり学習フレームワークである、強化自己教師あり医用画像学習のオートエンコーダ(MAESIL)を提案します。中核となる革新は「スーパーパッチ」であり、3Dコンテキストの保持と計算効率のバランスを取る3Dチャンクベースの入力単位です。提案手法では、ボリュームをスーパーパッチに分割し、包括的な空間表現を学習するために、二重マスキング戦略を伴う3Dマスク付きオートエンコーダの手法を用います。私たちは、3つの多様で大規模な公開CTデータセットで提案手法を検証しました。実験結果から、MAESILは、PSNRやSSIMといった主要な再構成指標において、AE、VAE、VQ-VAEなどの既存手法よりも大幅な改善を示すことが分かりました。これにより、MAESILは3D医用画像タスクのための堅牢で実用的な事前学習ソリューションとして確立されます。

広告