ENEIDE:歴史的イタリア語における固有表現認識とリンキングのための高品質なシルバースタンダード・データセット
arXiv cs.CL / 2026/4/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- ENEIDEは、2つの学術領域と複数の世紀にまたがる歴史的イタリア語向けに設計された、固有表現認識とリンキング(NERL)の新たに導入されたシルバースタンダード・データセットである。
- コーパスには2,111文書と8,000件超のエンティティ注釈が含まれ、複数のエンティティ種別(人物、地名、組織、文学作品)を扱い、NILエンティティをサポートしつつWikidata IDへ対応付けている。
- 注釈は、人手で厳選されたデジタル・エディション(Digital ZibaldoneおよびAldo Moro Digitale)からの半自動抽出によって作成され、品質管理および強化の手順が実施されている。
- データセットは学習/開発/テストの分割とともに公開され、歴史的イタリア語における初の一般公開型・マルチドメインNERLデータセットであると説明されており、通時的およびドメイン横断の評価を可能にする。
- 最先端モデルによるベースライン実験ではデータセットの難しさが示され、ゼロショットと微調整の手法の間に性能差が観測された。これは、研究および改善の明確な機会を示唆している。




