広告

ENEIDE:歴史的イタリア語における固有表現認識とリンキングのための高品質なシルバースタンダード・データセット

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • ENEIDEは、2つの学術領域と複数の世紀にまたがる歴史的イタリア語向けに設計された、固有表現認識とリンキング(NERL)の新たに導入されたシルバースタンダード・データセットである。
  • コーパスには2,111文書と8,000件超のエンティティ注釈が含まれ、複数のエンティティ種別(人物、地名、組織、文学作品)を扱い、NILエンティティをサポートしつつWikidata IDへ対応付けている。
  • 注釈は、人手で厳選されたデジタル・エディション(Digital ZibaldoneおよびAldo Moro Digitale)からの半自動抽出によって作成され、品質管理および強化の手順が実施されている。
  • データセットは学習/開発/テストの分割とともに公開され、歴史的イタリア語における初の一般公開型・マルチドメインNERLデータセットであると説明されており、通時的およびドメイン横断の評価を可能にする。
  • 最先端モデルによるベースライン実験ではデータセットの難しさが示され、ゼロショットと微調整の手法の間に性能差が観測された。これは、研究および改善の明確な機会を示唆している。

Abstract

本論文では、歴史的イタリア語テキストにおける固有表現抽出と言語化(Named Entity Recognition and Linking: NERL)のための、シルバー・スタンダード・データセットであるENEIDE(Extracting Named Entities from Italian Digital Editions)を紹介する。コーパスは2,111文書からなり、8,000件超のエンティティ注釈を、2つの学術的デジタル版から半自動的に抽出して構成している。対象となるのは、イタリア詩人ジャコモ・レオパルディ(1798--1837)の哲学の日記であるDigital Zibaldoneと、イタリアの政治家アルド・モーロ(1916--1978)の全著作であるAldo Moro Digitaleである。注釈は、ウィキデータの識別子に結び付けられた複数のエンティティ種別(人物、場所、組織、文学作品)を対象としており、知識グラフに対応付けられないNILエンティティも含む。われわれの知る限り、ENEIDEは訓練・開発・テストの分割を備えた、歴史的イタリア語に対する初のマルチドメインで公開可能なNERLデータセットである。手作業で厳選された学術的デジタル版からの、半自動的な注釈抽出のための手法(品質管理および注釈強化の手順を含む)を提示する。最先端モデルを用いたベースライン実験により、このデータセットがNERLにとって持つ難しさ、ならびにゼロショット手法と微調整モデルの間に存在するギャップを示す。2世紀にまたがるデータセットの通時的カバー範囲により、時間的エンティティの曖昧性解消および領域横断評価に特に適している。ENEIDEはCC BY-NC-SA 4.0ライセンスで公開する。

広告