MedLayBench-V:医療ビジョン言語モデルにおける専門家—一般(lay)意味整合のための大規模ベンチマーク

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 医療用Vision-Languageモデル(Med-VLM)が診断画像の理解で高性能であっても、患者向けの「一般向け(lay register)」表現への対応が不足している点を問題提起しています。
  • そのギャップに対し、専門家と一般の意味を揃える“expert-lay semantic alignment”に特化した大規模マルチモーダルベンチマークMedLayBench-Vを提案します。
  • 単に平易化するだけの手法では幻覚(hallucination)リスクがあるため、Structured Concept-Grounded Refinement(SCGR)パイプラインで厳密な意味同等性を担保する方針です。
  • SCGRではUMLSのConcept Unique Identifiers(CUIs)とミクロなエンティティ制約を統合し、意味の対応を検証可能な形で設計しています。
  • MedLayBench-Vは、次世代Med-VLMが臨床専門家と患者のコミュニケーションの橋渡しをするための学習・評価の基盤になることを目指しています。

要旨: 医療ビジョン言語モデル(Med-VLM)は、診断用画像の解釈において専門家レベルの能力を達成しています。しかし、現在のモデルは主として専門文献で訓練されているため、患者中心のケアで必要とされる平易な語り口で所見を伝える能力が制限されています。テキスト中心の研究では医学用語の難解さを解消するためのリソースが積極的に開発されてきた一方で、一般の人がアクセス可能な医療画像理解を促進するための、大規模なマルチモーダル・ベンチマークの決定的な欠如が存在します。この資源ギャップを埋めるために、専門家と一般の人の意味的な整合を目的とした、初の大規模マルチモーダル・ベンチマークであるMedLayBench-Vを提案します。幻覚を引き起こすリスクのある単純な簡略化アプローチとは異なり、当該データセットはStructured Concept-Grounded Refinement(SCGR)パイプラインによって構築されます。この手法は、Unified Medical Language System(UMLS)のコンセプト固有識別子(CUI)と、ミクロレベルのエンティティ制約を統合することで、厳密な意味同等性を強制します。MedLayBench-Vは、臨床の専門家と患者のあいだにあるコミュニケーションの断絶を埋めることのできる次世代のMed-VLMの訓練および評価のための、検証済みの基盤を提供します。