複数データセットによる3D神経画像分類のための多重インスタンス学習ベンチマーク

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CT/MRIの3D神経画像分類において、多重インスタンス学習(MIL)手法を3D CNNや3Dビジョントランスフォーマーと比較し、3つのCTと4つのMRIデータセット(10,000件以上を含む大規模データセット2つ)で評価しています。
  • 訓練の効率化のため、2D画像エンコーダを凍結してプーリング機構と分類器のみを学習する深層MIL設定に焦点を当て、リソース制約のある実務者が有効なネットワークを選べるようにすることを目的としています。
  • 結果として、学習可能な注意機構を持たない単純な平均プーリングMILが、6つの中規模タスクのうち4つで、より複雑なMILや3D CNNの代替案と同等、または上回る性能を示しています。
  • 大規模データセット2つでも平均プーリングのベースラインは競争力を維持しつつ、学習が最大25倍速いと報告されており、実用上の効率改善が大きいことを示しています。
  • 平均プーリングが機能する理由(スライスごとの注意の質など)を分析し、ベイズ推定により最良の分類器を導ける半合成データセットを用いて、既存MILの限界を明らかにし、今後の改善方向を示唆しています。

Abstract

訓練には計算資源を要するにもかかわらず、3D畳み込みニューラルネットワーク(CNN)はCTおよびMRIスキャンを分類するための標準的なアプローチとなってきました。近年の研究では、3D脳スキャンに対しては、各2Dスライスを埋め込むために用いる事前学習済みの画像エンコーダを凍結し、訓練するのはプーリング操作と分類器のみである場合、深層マルチプル・インスタンス学習(MIL)がより効率的な代替になり得ることが示唆されています。本論文では、3つのCTデータセットと4つのMRIデータセットに対して、単純なMIL、注意(アテンション)ベースのMIL、3D CNN、3D ViTを系統的に比較します。さらに、少なくとも10,000件のスキャンを含む2つの大規模データセットも含めます。私たちの目的は、計算資源に制約のある実務者が、3Dの神経画像に対してどのニューラルネットワークがうまく機能するのか、そしてその理由を理解できるようにすることです。加えて、注意ベースMILに関する設計上の選択肢(異なるエンコーダ、プーリング操作、アーキテクチャの順序付けを含む)も比較します。結果として、学習可能な注意を一切用いない単純な平均プーリングMILが、6つの中規模タスクのうち4つで、近年のMILまたは3D CNNの代替案に対して一致するか、あるいは上回ることがわかりました。このベースラインは2つの大規模データセットでも競争力を維持しつつ、訓練は25倍高速です。平均プーリングがうまく機能する理由を説明するために、各スライスの注意品質を調べ、さらにベイズ推定器によって最良の分類器を導出できる半合成データセットを用います。この分析により、既存のMILアプローチの限界が明らかになり、将来の改善に向けた道筋が示唆されます。