YoNER:新たなヨルバ語マルチドメイン固有表現認識データセット
arXiv cs.CL / 2026/4/8
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、聖書、ブログ、映画、ラジオ放送、Wikipediaにまたがる新しいヨルバ語のマルチドメイン固有表現認識(NER)データセット「YoNER」を紹介する(約5,000文/100,000トークン)。CoNLL形式で注釈が付与され、エンティティタイプはPER/ORG/LOCである。
- 3名のネイティブなヨルバ語話者による手動アノテーションにより、アノテータ間一致度は0.70を超え、ドメインをまたいだ高品質で一貫したラベルを目指している。
- トランスフォーマーエンコーダモデルによるクロスドメイン評価(MasakhaNER 2.0との比較を含む)では、アフリカ中心のモデルが一般的な多言語モデルより概して優れている一方で、ブログや映画といった特定のドメインでは性能が急激に低下することが示される。
- ドメイン転移の実験では、ニュースやWikipediaのようなより形式的なドメインの方が他のドメインよりも効果的に転移できることが分かり、ヨルバ語NERにおけるドメイン感度が明確になる。
- 著者らは、事前学習済みのリソースも公開している。具体的には、ヨルバ語専用の言語モデル(OyoBERT)を含み、対象ドメイン内の評価では多言語モデルを上回る。さらにYoNER自体も一般公開している。
