CFCML:マルチモーダル画像と表データを用いた疾病診断のための粗から細へのクロスモーダル学習フレームワーク

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、疾病診断のための医用画像と表データ間のモダリティギャップを縮小する粗→細クロスモーダル学習(CFCML)フレームワークを提案する。
  • 粗段階では、さまざまなエンコーダ段からの多階層画像特徴と表データ情報との関係を活用し、モダリティギャップを予備的に狭める。
  • 細段階では、クラス認識情報を備えた単一モダリティとクロスモーダルのプロトタイプを生成し、階層的アンカーに基づく関係マイニング(HRM)戦略を導入して、識別力の高いクロスモーダル信号をさらに抽出する。
  • 本手法は、モダリティサンプル、単一モダリティのプロトタイプ、およびクロスモーダルプロトタイプをアンカーとして対比学習を推進し、複数の視点からクラス間の分離を高めつつ、クラス内のばらつきを低減する。
  • MENおよびDerm7ptデータセットでの実験は、それぞれAUCを1.53%および0.91%向上させ、コードはリンクされたGitHubリポジトリで公開されている。

要旨: 臨床現場では、医用画像や表データを含むクロスメディアル情報は疾病診断には不可欠である。これらのデータタイプ間には顕著なモダリティギャップが存在し、それがクロスメディアル診断精度の進歩を妨げている。既存の多くのクロスメディアル学習(CML)手法は主に高レベルのエンコーダ出力間の関係を探索することに焦点を当てており、画像の局所情報を見落とす傾向がある。加えて、これらの手法はタスク関連情報の抽出を見落とすことが多い。本論文では、異なるモダリティ間の関係を徹底的に探索することにより、マルチモーダル画像と表データ間のモダリティギャップを順次縮小する新規の粗から細へのクロスメディアル学習(CFCML)フレームワークを提案する。粗い段階では、さまざまな画像エンコーダ段階からのマルチ粒度特徴と表情報との関係を探索し、モダリティギャップの予備的な縮小を促進する。細い段階では、クラス認識情報を組み込んだ単一モダリティおよびクロスモダリティのプロトタイプを生成し、階層的アンカーに基づく関係マイニング(HRM)戦略を確立して、モダリティギャップをさらに縮小し、識別的なクロスメディアル情報を抽出する。この戦略はモダリティサンプル、単一モダリティプロトタイプ、およびクロスモダリティプロトタイプをアンカーとして活用し、対比学習アプローチを開発して、クラス間の分離度を効果的に高めつつ、クラス内分離度を多面的に低減する。実験結果は、我々の手法が最先端(SOTA)手法を上回り、MENおよびDerm7ptデータセットのAUC指標でそれぞれ1.53%および0.91%の改善を達成したことを示している。コードは https://github.com/IsDling/CFCML に公開されています。