M-IDoL:医療基盤モデルにおけるモダリティ固有かつ多様な表現学習のための情報分解

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 115万枚の医療画像で事前学習したM-IDoLは、21の下流臨床タスクにおいて一般化性能の向上を達成したと報告されており、また、X線、眼底(fundus)、OCT、皮膚鏡(dermoscopy)、病理(pathology)を含む5つの画像モダリティにおいて、ほかの20の基盤モデルよりも優れています。

要旨:医療基盤モデル(MFMs)は、多様な下流の臨床タスクに対して効果的に汎化できる普遍的な表現を、多モーダル医用画像から学習することを目指している。しかし、既存のほとんどのMFMsは、複数のモーダル表現を単一の埋め込み空間に混ぜ合わせてしまう情報の曖昧さに悩まされており、その結果、モーダル固有性と多様性が低下する。 本論文では、自己教師あり
\underline{\textit{M}}FM である M-IDoL を提案する。これは、2つの目的を通じて、多モーダル表現学習のための情報分解(Information Decomposition)を導入する。すなわち、i)多モーダル表現を分離可能なMixture-of-Experts(MoE)のサブ空間へ分散させることで、モーダル間エントロピーを最大化し、モーダリティごとの表現の特異性を達成する。さらに、ii)各MoEサブ空間内で、きめ細かな意味識別(fine-grained semantic discrimination)を行うことで、モーダル内不確実性を最小化し、モーダリティごとの表現多様性を豊かにする。 1.15百万枚の医用画像で事前学習を行った結果、M-IDoL は i)5つの画像モダリティ(例:X線、眼底、OCT、皮膚鏡検査、病理)において、20の基盤モデルよりも優れた性能であることに加え、21の下流臨床タスクにわたる汎化性能がより高いことを示した。また ii)モダリティ固有かつ多様な表現を学習し、モダリティ間での特徴クラスタの分離がより明確になり、各モダリティ内でのよりきめ細かな特徴識別が可能になることを示した。