ノイズ付き教師による共同蒸留を用いた注意誘導付きマスク画像モデリング：医療画像の自己教師あり学習

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、医療画像に合わせてマスク画像モデリング（MIM）へ注意誘導型マスキングを提案し、近傍パッチの文脈類似性による情報漏えいをランダムマスキングが引き起こす問題に対処しようとします。
Swinトランスフォーマーではグローバルな[CLS]トークンを使えないため、共蒸留（co-distillation）フレームワークにより、意味的に同時に現れやすいかつ判別性の高いパッチを選択的にマスクして、自己教師あり事前学習をより難しくし効果を高めます。
著者らは、注意誘導型マスキングには注意ヘッドの多様性が減るという限界があり、それが下流タスクの性能低下につながり得ることを示します。
この課題に対して、共同蒸留の枠組みに「ノイズ付き教師」を統合（DAGMaN）し、注意誘導型マスキングを保ちつつ注意ヘッドの多様性を高く維持します。
実験では、肺結節の分類（フルショット/ファインチューニング少数ショット）、免疫療法の予後予測、腫瘍セグメンテーション、臓器クラスタリングなど複数の医療画像タスクでDAGMaNの有効性が示されています。