BioUNER:臨床ウルドゥ語名寄せ認識のためのベンチマークデータセット
arXiv cs.CL / 2026/4/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- BioUNERは、オンラインのウルドゥ語の医療記事・医薬処方情報・病院/健康ブログ等から収集して構築した、Biomedical Urdu Named Entity Recognition(BioNER)のゴールド標準ベンチマークデータセットです。
- Doccanoを用いた医療ドメインに精通する3名のネイティブアノテータにより、前処理後に153Kトークンがアノテーションされました。
- アノテータ間一致率は0.78を達成しており、データセットのゴールド標準品質が検証されています。
- 事前処理と評価のうえで、SVM、LSTM、mBERT、XLM-RoBERTaなど複数の機械学習/深層学習モデルで内在的・外在的評価を行い、ベンチマークとしての有用性を示しています。
- BioUNERは、ウルドゥ語の医療NLP資源として信頼できる比較可能な評価基盤を提供します。



