医療画像分類におけるフィッシャー・ベクトル符号化を用いた深層ニューラルネットワーク
arXiv cs.CV / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文では、データ量の大小に応じて有効となることを目指し、順序不変の符号化手法であるフィッシャー・ベクトルを用いてCNN+ViT(Vision Transformer)のハイブリッド構造を強化する提案を行っています。
- 方法は、画像特徴に対してガウス混合モデル(GMM)を推定し、その結果を基にフィッシャー・ベクトルを算出することで、既存のCNN+ViTハイブリッド以上の特徴表現を狙います。
- 大規模データセットでの適用を難しくするGMM推定の計算コスト増大に対し、データサイズが増えても推定コストが肥大化しにくくする手法を導入しています。
- MedMNIST v2、Clean-CC-CCII、ISIC2018という複数の医療画像ベンチマークで検証し、MedMNIST v2では全データセットでベンチマークを上回り、Clean-CC-CCIIとISIC2018でも文献ベースで競争力のある結果を得ています。
- 結果として、フィッシャー・ベクトルを組み込んだCNN+ViTモデルは、小規模から大規模の医療画像データに対して実用的に機能しつつ、計算負荷のトレードオフを抑えられる可能性が示されています。