EI: マルチモーダル画像に基づく疾病認識のための早期介入

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、疾病認識のためのマルチモーダル画像診断における2つの主要な課題を特定する。1つは単一モダリティ埋め込み後の融合、もう1つはラベル付きマルチモーダルデータの不足とドメインシフトである。
EI（Early Intervention）フレームワークは、1つのモダリティをターゲットとして扱い、参照モダリティからの高レベルのセマンティックトークンを介入トークンとして用い、ターゲットの埋め込みを早期に誘導する。
Mixture of Low-varied-Ranks Adaptation（MoR）は、低ランクアダプターを用いたパラメータ効率の高いファインチューニング手法と、Vision Foundation Modelsを適応させるためのウェイト緩和ルータを組み合わせた手法である。
網膜疾患データセット、皮膚病変データセット、 Keen異常分類データセットの3つの公開データセットを対象とした広範な実験により、EIとMoRが競合する複数のベースラインを上回ることが示された。

要約: 現在のマルチモーダル医用画像ベースの病識別手法には、二つの大きな課題がある。第一に、支配的な「ユニモーダル画像埋め込み後の融合」パラダイムは、マルチモーダルデータに含まれる補完的かつ相関した情報を十分には活用できない。第二に、ラベル付きマルチモーダル医用画像の不足と、それらが自然画像からの顕著なドメインシフトを伴うことが、医用画像埋め込みに最新の Vision Foundation Models（VFMs）を適用するのを妨げている。これらの課題を共同で解決するため、私たちは新しい Early Intervention（EI）フレームワークを提案する。1つのモダリティをターゲットとして他をリファレンスと扱い、EI はリファレンスからの高レベルの意味的トークンを介入トークンとして活用し、ターゲットモダリティの埋め込み処理を早期段階で導く。さらに、Mixture of Low-varied-Ranks Adaptation（MoR）を導入する。これは、異なる階数を持つ低ランクアダプターのセットと、VFM 適応のためのウェイト緩和ルータを用いる、パラメータ効率の高いファインチューニング手法である。網膜疾患、皮膚病変、および異常分類という3つの公開データセットに対する広範な実験は、提案手法の有効性を、競合する多くのベースラインに対して検証した。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

EI: マルチモーダル画像に基づく疾病認識のための早期介入

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer