適応的アテンションゲートによるCNN-ViTフュージョン:脳腫瘍MRI分類のためのハイブリッド深層学習モデル
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CNNとVision Transformer(ViT)の表現を融合して、局所的特徴と大域的特徴をより効果的に学習する脳腫瘍MRI分類の新しいハイブリッド深層学習モデルを提案している。
- CNN(局所のテクスチャや空間情報)とTransformer(長距離の依存関係)それぞれのブランチを文脈に応じて統合するために、サンプルごと・特徴ごとに動的な重み付けを学習するAdaptive Attention Gateを導入している。
- KaggleのBrain Tumor MRI Datasetで評価したところ、テスト精度97.60%、適合率97.30%、再現率97.50%、F1スコア97.40%、macro-average AUC 0.9946を報告している。
- 著者らは、単一CNN/ViTのベースラインや既存の競合的なフュージョン手法よりも良い結果になったとしており、動的な特徴重み付けが医用画像分類に有効だと示唆している。
- 本研究はarXivのプレプリント(v1)として公開されており、臨床的に確立された完成システムではない研究段階の貢献である。




