要約: 現在のマルチモーダル医用画像ベースの病識別手法には、二つの大きな課題がある。第一に、支配的な「ユニモーダル画像埋め込み後の融合」パラダイムは、マルチモーダルデータに含まれる補完的かつ相関した情報を十分には活用できない。第二に、ラベル付きマルチモーダル医用画像の不足と、それらが自然画像からの顕著なドメインシフトを伴うことが、医用画像埋め込みに最新の Vision Foundation Models(VFMs)を適用するのを妨げている。これらの課題を共同で解決するため、私たちは新しい Early Intervention(EI)フレームワークを提案する。1つのモダリティをターゲットとして他をリファレンスと扱い、EI はリファレンスからの高レベルの意味的トークンを介入トークンとして活用し、ターゲットモダリティの埋め込み処理を早期段階で導く。さらに、Mixture of Low-varied-Ranks Adaptation(MoR)を導入する。これは、異なる階数を持つ低ランクアダプターのセットと、VFM 適応のためのウェイト緩和ルータを用いる、パラメータ効率の高いファインチューニング手法である。網膜疾患、皮膚病変、および異常分類という3つの公開データセットに対する広範な実験は、提案手法の有効性を、競合する多くのベースラインに対して検証した。
EI: マルチモーダル画像に基づく疾病認識のための早期介入
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、疾病認識のためのマルチモーダル画像診断における2つの主要な課題を特定する。1つは単一モダリティ埋め込み後の融合、もう1つはラベル付きマルチモーダルデータの不足とドメインシフトである。
- EI(Early Intervention)フレームワークは、1つのモダリティをターゲットとして扱い、参照モダリティからの高レベルのセマンティックトークンを介入トークンとして用い、ターゲットの埋め込みを早期に誘導する。
- Mixture of Low-varied-Ranks Adaptation(MoR)は、低ランクアダプターを用いたパラメータ効率の高いファインチューニング手法と、Vision Foundation Modelsを適応させるためのウェイト緩和ルータを組み合わせた手法である。
- 網膜疾患データセット、皮膚病変データセット、 Keen異常分類データセットの3つの公開データセットを対象とした広範な実験により、EIとMoRが競合する複数のベースラインを上回ることが示された。

