医療エンティティツリーから学ぶ:MLLM向けエンティティ中心の医療データエンジニアリングフレームワーク

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル大規模言語モデル(MLLM)向けの医療データ整備が粗すぎて、臨床知識の階層的かつ相互に関連した構造を捉えられていないため、性能が制約されると主張している。
  • 権威ある医療文献からエンティティを自動抽出し、疾患・解剖構造・モダリティ・症状を統一的に符号化する階層構造「Medical Entity Tree(MET)」を構築する、新しいエンティティ中心の医療データエンジニアリング枠組みを提案している。
  • METを土台に、ノード誘導型リトリーバル、2段階のハイブリッドなフィルタリング/アラインメント、知識に基づくデータ合成を用いて、強化キャプションや推論を促す狙い撃ちのVQAペアを生成する。
  • 6つの医療ベンチマークでの評価により、METベースの手法が汎用MLLMの医療能力を大きく向上させ、複雑な臨床クエリへの対応力を高め、多様な医療領域で最先端の性能を達成したことが示されている。

要旨: マルチモーダル大規模言語モデル(MLLMs)は医療分野で大きな変革の可能性を示している一方で、モダリティや部署による粗い粒度での分割に依存する従来のデータキュレーション戦略によって性能が阻害されています。このような断片化したアプローチは、臨床医学の知識が持つ階層的かつ相互に結びついた性質を捉えられず、その結果、モデルのきめ細かな認識や複雑な推論を行う能力が制限されます。本論文では、新しいEntity-Centric Medical Data Engineering(エンティティ中心の医療データ工学)フレームワークを提案します。権威ある医学文献からエンティティを自動的に抽出し、疾患、解剖学的構造、モダリティ、症状を統一された知識リポジトリに体系的に符号化する階層構造であるMedical Entity Tree(MET)を構築します。METに基づき、以下を含む高度なデータエンジンを提案します:(1) ノードに導かれたレトリーバルにより、生データを特定の医療概念へとアンカー付けすること、(2) 精密な視覚—意味対応を保証するための二段階のハイブリッドフィルタリングおよびアラインメントのパイプライン、(3) 構造的制約を活用して、強化されたキャプションおよび標的化された推論VQAペアを生成する知識に配慮したデータ合成。6つの医療ベンチマークにわたる大規模な評価により、本アプローチが汎用目的のMLLMの医療能力を大幅に向上させ、複雑な臨床クエリを扱う能力を高め、さまざまな医療コンテキストにおいて最先端の性能を達成することを示します。