医療画像分類におけるフィッシャー・ベクトル符号化を用いた深層ニューラルネットワーク

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文では、データ量の大小に応じて有効となることを目指し、順序不変の符号化手法であるフィッシャー・ベクトルを用いてCNN+ViT(Vision Transformer)のハイブリッド構造を強化する提案を行っています。
  • 方法は、画像特徴に対してガウス混合モデル(GMM)を推定し、その結果を基にフィッシャー・ベクトルを算出することで、既存のCNN+ViTハイブリッド以上の特徴表現を狙います。
  • 大規模データセットでの適用を難しくするGMM推定の計算コスト増大に対し、データサイズが増えても推定コストが肥大化しにくくする手法を導入しています。
  • MedMNIST v2、Clean-CC-CCII、ISIC2018という複数の医療画像ベンチマークで検証し、MedMNIST v2では全データセットでベンチマークを上回り、Clean-CC-CCIIとISIC2018でも文献ベースで競争力のある結果を得ています。
  • 結果として、フィッシャー・ベクトルを組み込んだCNN+ViTモデルは、小規模から大規模の医療画像データに対して実用的に機能しつつ、計算負荷のトレードオフを抑えられる可能性が示されています。

Abstract

順序のないエンコーディング手法は、データの入手可能性が限られている状況において、画像分類のための畳み込みニューラルネットワーク(CNN)を改善することが示されています。さらに、CNNの局所性バイアスの問題に対処するために、近年、ハイブリッドCNN+Vision Transformers(ViT)モデルが提案されています。これらのモデルは、CNNのみのアプローチを上回る性能を示しました。とはいえ、より精緻な特徴表現といった要素を伴う形で、この種のハイブリッドモデルを統合することは非常に有益であり、文献上では未だ十分に探究されていません。この文脈で本研究では、小規模データセットから大規模データセットまで適用可能なモデルの実現を目指し、ハイブリッドCNN+ViTアーキテクチャに対して、順序のないエンコーディング手法であるFisher Vectorsを導入することを提案します。このエンコーディング手法は、画像特徴に対してガウス混合モデル(GMM)を推定することに依存します。大規模データセットでは、GMM推定の計算コストが、Fisher Vectorsの適用における制約要因となります。そこで本研究では、データセットのサイズを大きくするにつれてGMM推定コストの増加を抑える方法を提案します。我々の方法の実現可能性を、医用画像分類の文脈で検討し、MedMNIST(v2)、Clean-CC-CCII、ISIC2018に適用します。これらのデータセット群には、データの規模とモダリティの多様性が含まれています。すべてのMedMNIST(v2)データセットにおいてベンチマーク結果を上回り、Clean-CC-CCIIおよびISIC2018では文献上競争力のある結果を得ました。