CADEL:日本のエンティティリンキングのための行政ウェブ文書コーパス
arXiv cs.CL / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文では、日本に関連する知識ベースのエンティティに結び付くよう、日本語表現を対応付けることでエンティティリンキングを支援することを目的とした注釈付き日本語コーパス「CADEL」を紹介する。
- この分野における重要なギャップを取り上げ、従来はエンティティリンキングのリソースや評価用資料の多くが英語に焦点を当ててきたため、日本語のベンチマークが限定的であった点を指摘する。
- 著者らはコーパスの設計方針を提案し、日本固有のエンティティや概念に結び付く多様な言語表現のカバレッジを含めている。
- 注釈品質は高いアノテータ間一致によって検証されており、学習および評価に信頼できるラベルが付与されていることを示している。
- 文字列マッチングを用いた予備的な曖昧性解消実験では、本データセットに非自明なケースが多数含まれていることが示唆されており、CADELがより高度なエンティティリンキングシステムのための有用なベンチマークとなる位置付けである。



