SemEnrich: Self-Supervised Semantic Enrichment of Radiology Reports for Vision-Language Learning

arXiv cs.LG / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 放射線レポートの所見には、医師が異常(主に陰性)を中心に記述し、正・中立所見が省略されやすいデータ偏りがありうるという課題に対し、自己教師ありでレポート文を意味クラスタリングしてデータを拡充する手法SemEnrichを提案している。
  • 学習用データの所見文に対して、クラスタ間から正・中立の観測を自己教師ありに追加することで、複数の評価指標(COMET、BERTScore、Sentence-BLEU、CheXbert-F1、RadGraph-F1)で一貫した向上が示されている。
  • アブレーションにより改善はランダムなデータ拡張ではなく、意味クラスタリングに起因することが確認されている。
  • さらにGRPO学習において意味クラスタ情報を報酬設計へ組み込む方法も提示しており、COMET/BERTScore/Sentence-BLEUで追加の改善が報告されている。
  • コードが公開されており、同種の視覚言語学習(Vision-Language Learning)向けデータ強化の再現・応用が可能になっている。

Abstract

Medical vision-language datasets are often limited in size and biased toward negative findings, as clinicians report abnormalities mostly but might omit some positive/neutral findings because they might be considered as irrelevant to the patient's condition. We propose a self-supervised data enrichment method that leverages semantic clustering of report sentences. Then we enrich the findings in the medical reports in the training set by adding positive/neutral observations from different clusters in a self-supervised manner. Our approach yields consistent gains in supervised fine-tuning (5.63%, 3.04%, 7.40%, 5.30%, 7.47% average gains on COMET score, Bert score, Sentence Bleu, CheXbert-F1 and RadGraph-F1 scores respectively). Ablation studies confirm that improvements stem from semantic clustering rather than random augmentation. Furthermore, we introduce a way to incorporate semantic cluster information into the reward design for GRPO training, which leads to further performance gains (2.78%, 3.14%, 12.80% average gains on COMET score, Bert score and Sentence Bleu scores respectively). We share our code at https://anonymous.4open.science/r/SemEnrich-75CF