GS-BrainText:臨床自然言語処理の開発・検証のための、Generation Scotland による多施設脳画像レポート・データセット
arXiv cs.CL / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- GS-BrainText データセットは、Generation Scotland コホートから 8,511 件の脳放射線レポートを収集し、そのうち 2,431 件を 24 の脳疾患表現型に対して注釈付けしています。
- 英国の複数施設データセットであり、スコットランドの 5 つの NHS(National Health Service)医療委員会にまたがり、年齢分布も幅広い(平均 58、中央値 53)ため、汎化可能な臨床 NLP の開発・検証を支えることを目的としています。
- 専門家による注釈は、定義されたスキーマを用い、学際的な臨床的監督のもとで作成されており、各施設で 10〜100% の二重注釈と、正式な品質保証手順を含みます。
- ルールベースの EdIE-R システムとのベンチマークでは、医療委員会間(F1 86.13〜98.13)、表現型間(F1 22.22〜100)、年齢層間(F1 87.01〜98.13)で性能のばらつきが示され、汎化の課題が浮き彫りになります。
- 本リリースは、英国の臨床テキスト資源におけるギャップを埋めることを狙い、言語的バリエーション、診断的不確実性の表現、ならびにデータセット特性が NLP の性能にどう影響するかについての研究を可能にします。




