M-IDoL：医療基盤モデルにおけるモダリティ固有かつ多様な表現学習のための情報分解

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

115万枚の医療画像で事前学習したM-IDoLは、21の下流臨床タスクにおいて一般化性能の向上を達成したと報告されており、また、X線、眼底（fundus）、OCT、皮膚鏡（dermoscopy）、病理（pathology）を含む5つの画像モダリティにおいて、ほかの20の基盤モデルよりも優れています。

要旨：医療基盤モデル（MFMs）は、多様な下流の臨床タスクに対して効果的に汎化できる普遍的な表現を、多モーダル医用画像から学習することを目指している。しかし、既存のほとんどのMFMsは、複数のモーダル表現を単一の埋め込み空間に混ぜ合わせてしまう情報の曖昧さに悩まされており、その結果、モーダル固有性と多様性が低下する。本論文では、自己教師あり
\underline{\textit{M}}FM である M-IDoL を提案する。これは、2つの目的を通じて、多モーダル表現学習のための情報分解（Information Decomposition）を導入する。すなわち、i）多モーダル表現を分離可能なMixture-of-Experts（MoE）のサブ空間へ分散させることで、モーダル間エントロピーを最大化し、モーダリティごとの表現の特異性を達成する。さらに、ii）各MoEサブ空間内で、きめ細かな意味識別（fine-grained semantic discrimination）を行うことで、モーダル内不確実性を最小化し、モーダリティごとの表現多様性を豊かにする。 1.15百万枚の医用画像で事前学習を行った結果、M-IDoL は i）5つの画像モダリティ（例：X線、眼底、OCT、皮膚鏡検査、病理）において、20の基盤モデルよりも優れた性能であることに加え、21の下流臨床タスクにわたる汎化性能がより高いことを示した。また ii）モダリティ固有かつ多様な表現を学習し、モダリティ間での特徴クラスタの分離がより明確になり、各モダリティ内でのよりきめ細かな特徴識別が可能になることを示した。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

M-IDoL：医療基盤モデルにおけるモダリティ固有かつ多様な表現学習のための情報分解

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化