自動化された脳腫瘍分類のための、解釈可能なビジョントランスフォーマー・フレームワーク

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、4クラス（グリオーマ、髄膜腫、下垂体腫瘍、健常脳）をMRI画像から自動分類する深層学習フレームワークを提案しており、7,023枚のMRIデータセットを用いています。
背骨（バックボーン）としてImageNet-21kで事前学習したVision Transformer（ViT-B/16）を採用し、CLAHEによる局所コントラスト強調などの臨床的動機づけに基づく前処理で腫瘍境界の視認性を高めています。
学習は、まずバックボーンを凍結して分類ヘッドをウォームアップし、その後に識別的学習率で全体微調整を行う2段階の微調整方針に加え、MixUpとCutMixによるバッチごとのデータ拡張を行います。
予測の安定化と性能向上のためにEMA（指数移動平均）による重み平滑化とテスト時データ拡張（TTA）を組み込み、各予測の根拠となる脳領域を解釈可能なヒートマップとして可視化するためにAttention Rolloutを使用しています。
著者らは、テスト精度99.29%、macro F1スコア99.25%を報告しており、健常クラスと髄膜腫クラスでリコールが完全（100%）であることに加え、CNNベースラインを上回ったとしています。

概要: 脳腫瘍は、最も重要な神経疾患の1つであり、早期かつ正確な診断は患者の生存率と直接相関します。磁気共鳴画像法（MRI）スキャンの手動解釈は時間を要し、観察者間のばらつき（インターオブザーバーのばらつき）の影響を受け、さらに高度な専門知識を必要とします。本論文では、7,023枚のMRIスキャンからなるデータセットを用いて、グリオーマ、髄膜腫、下垂体腫瘍、健康な脳組織を区別する自動の4クラス脳腫瘍分類のための深層学習フレームワークを提案します。提案システムは、バックボーンとしてImageNet-21kで事前学習したVision Transformer（ViT-B/16）を採用し、臨床的に動機づけられた前処理および学習パイプラインで拡張します。コントラスト限定適応ヒストグラム平坦化（CLAHE）を適用して局所コントラストを高め、標準的な正規化では見えにくい腫瘍の境界を強調します。2段階の微調整戦略を採用します。まず、分類ヘッドをバックボーンを凍結した状態でウォームアップし、その後、弁別的な学習率で全体を微調整します。汎化性能を向上させるために、MixUpとCutMixのデータ拡張をバッチごとに適用します。重みの指数移動平均（EMA）とテスト時データ拡張（TTA）により、さらに性能が安定し向上します。Attention Rolloutによる可視化は、各予測に寄与する脳領域の臨床的に解釈可能なヒートマップを提供します。提案モデルは、テスト精度99.29%、マクロF1スコア99.25%、健康クラスと髄膜腫クラスの両方で完全な再現率を達成し、すべてのCNNベースラインを上回ります。