MApLe:診断レポートと大規模医用画像のマルチインスタンス・アラインメント

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、解剖学と微細な画像所見の両方に言及する診断レポート向けの、ビジョン・ランゲージ・アラインメント手法であるMApLeを提案する。
  • 小さな画像領域を自由形式のレポート中の関連する文に結び付けるために、多タスクかつマルチインスタンスのパッチ単位アラインメントを用いることで、標準的なビジョン・ランゲージ・モデルの重要な限界に取り組む。
  • MApLeは、解剖学的領域の概念と診断所見の概念を分離し、テキスト埋め込みと、解剖構造に条件付けされた画像エンコーダを用いる。
  • 複数の下流タスクに関する実験により、最先端のベースラインモデルに比べてアラインメント性能が向上することが示される。
  • 著者らは、リンクされたGitHubリポジトリを通じて実装コードを提供している。

Abstract

診断レポートでは、専門家が複雑な画像データを臨床的に実行可能な情報へとエンコードします。彼らは、解剖学的な文脈において意味を持つ、微細な病理所見について述べます。レポートは比較的よく似た構造に従い、診断情報を、しばしば微小であるものの結果に重大な影響を及ぼす画像上の観察と関連づけられる少数の語で表現します。標準的な視覚言語モデルは、これらの有益なテキスト要素と画像中の小さな位置との間の関連を特定することに苦戦します。そこで本研究では、これらの制約を克服するマルチタスク・マルチインスタンスの視覚言語アライメント手法である「MApLe」を提案します。MApLeは、解剖学的領域の概念と診断所見の概念を切り離し、パッチごとのアプローチで局所的な画像情報を文へと結び付けます。提案手法は、文中で解剖学的および診断の概念を捉えるよう学習されたテキスト埋め込み、解剖学的構造に条件付けされたパッチごとの画像エンコーダ、そしてこれらの表現のマルチインスタンス・アライメントから構成されます。本手法により、自由記述のレポートにおいて、異なる画像領域や複数の診断所見をうまくアライメントできることを示します。また、いくつかの下流タスクで評価した結果、提案モデルは最先端のベースラインモデルと比べてアライメント性能を向上させることを示します。コードは https://github.com/cirmuw/MApLe で公開されています。