BioUNER：臨床ウルドゥ語名寄せ認識のためのベンチマークデータセット

arXiv cs.CL / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

BioUNERは、オンラインのウルドゥ語の医療記事・医薬処方情報・病院/健康ブログ等から収集して構築した、Biomedical Urdu Named Entity Recognition（BioNER）のゴールド標準ベンチマークデータセットです。
Doccanoを用いた医療ドメインに精通する3名のネイティブアノテータにより、前処理後に153Kトークンがアノテーションされました。
アノテータ間一致率は0.78を達成しており、データセットのゴールド標準品質が検証されています。
事前処理と評価のうえで、SVM、LSTM、mBERT、XLM-RoBERTaなど複数の機械学習/深層学習モデルで内在的・外在的評価を行い、ベンチマークとしての有用性を示しています。
BioUNERは、ウルドゥ語の医療NLP資源として信頼できる比較可能な評価基盤を提供します。