SemEnrich:視覚言語学習のための放射線レポートの自己教師あり意味的強化
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 放射線レポートの所見には、医師が異常(主に陰性)を中心に記述し、正・中立所見が省略されやすいデータ偏りがありうるという課題に対し、自己教師ありでレポート文を意味クラスタリングしてデータを拡充する手法SemEnrichを提案している。
- 学習用データの所見文に対して、クラスタ間から正・中立の観測を自己教師ありにより追加することで、複数の評価指標(COMET、BERTScore、Sentence-BLEU、CheXbert-F1、RadGraph-F1)で一貫した向上が示されている。
- アブレーションにより、改善はランダムなデータ拡張ではなく、意味クラスタリングに起因することが確認されている。
- さらにGRPO学習において意味クラスタ情報を報酬設計へ組み込む方法も提示しており、COMET/BERTScore/Sentence-BLEUで追加の改善が報告されている。
- コードが公開されており、同種の視覚言語学習(Vision-Language Learning)向けデータ強化の再現・応用が可能になっている。




