適応的アテンションゲートによるCNN-ViTフュージョン：脳腫瘍MRI分類のためのハイブリッド深層学習モデル

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CNNとVision Transformer（ViT）の表現を融合して、局所的特徴と大域的特徴をより効果的に学習する脳腫瘍MRI分類の新しいハイブリッド深層学習モデルを提案している。
CNN（局所のテクスチャや空間情報）とTransformer（長距離の依存関係）それぞれのブランチを文脈に応じて統合するために、サンプルごと・特徴ごとに動的な重み付けを学習するAdaptive Attention Gateを導入している。
KaggleのBrain Tumor MRI Datasetで評価したところ、テスト精度97.60%、適合率97.30%、再現率97.50%、F1スコア97.40%、macro-average AUC 0.9946を報告している。
著者らは、単一CNN/ViTのベースラインや既存の競合的なフュージョン手法よりも良い結果になったとしており、動的な特徴重み付けが医用画像分類に有効だと示唆している。
本研究はarXivのプレプリント（v1）として公開されており、臨床的に確立された完成システムではない研究段階の貢献である。

Abstract

磁気共鳴画像法（MRI）画像を用いた脳腫瘍の早期検出と分類は非常に重要ですが、医用画像からの抽出は困難です。畳み込みニューラルネットワーク（CNN）は局所的なテクスチャと空間情報の両方を捉えるのが得意である一方、ビジョントランスフォーマ（ViT）は長距離のグローバルな依存関係を捉えるのが得意です。本論文では、SqueezeNetスタイルのCNNブランチとMobileViTスタイルのグローバルトランスフォーマブランチを、Adaptive Attention Gate（適応的注意ゲート）機構によって組み合わせた新しいハイブリッドアーキテクチャを提案します。このゲートは、サンプルごと・特徴ごとに重みを動的に学習し、それぞれのブランチの寄与度を重み付けすることで、局所表現とグローバル表現を文脈に応じて統合できるようにします。提案モデルは、Brain Tumor MRI Dataset（Kaggle）で学習・評価を行い、テスト精度97.60、適合率97.30、再現率97.50、F1スコア97.40、ならびにマクロ平均の曲線下面積（AUC）が0.9946でした。これらのスコアは、単一のCNNおよびViTのベースラインや、現在の競合する融合手法よりも高く、動的な特徴量の重み付けが医用画像の分類に有効であることを示しています。