広告

CADEL:日本のエンティティリンキングのための行政ウェブ文書コーパス

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 論文では、日本に関連する知識ベースのエンティティに結び付くよう、日本語表現を対応付けることでエンティティリンキングを支援することを目的とした注釈付き日本語コーパス「CADEL」を紹介する。
  • この分野における重要なギャップを取り上げ、従来はエンティティリンキングのリソースや評価用資料の多くが英語に焦点を当ててきたため、日本語のベンチマークが限定的であった点を指摘する。
  • 著者らはコーパスの設計方針を提案し、日本固有のエンティティや概念に結び付く多様な言語表現のカバレッジを含めている。
  • 注釈品質は高いアノテータ間一致によって検証されており、学習および評価に信頼できるラベルが付与されていることを示している。
  • 文字列マッチングを用いた予備的な曖昧性解消実験では、本データセットに非自明なケースが多数含まれていることが示唆されており、CADELがより高度なエンティティリンキングシステムのための有用なベンチマークとなる位置付けである。

Abstract

エンティティリンキングとは、言語表現を、現実世界の実体や概念を表す知識ベース上のエントリに対応付ける作業である。このタスクのための言語リソースは主に英語向けに開発されてきた一方で、日本語システムを評価するために利用可能なリソースは限られている。本研究では、エンティティリンキングのためのコーパス設計方針を開発し、日本に固有の実体を指す豊富な言語表現をカバーする、日本語のエンティティリンキングシステムの学習および評価のための注釈付きコーパスを構築する。アノテータ間一致度の評価により、コーパス中の注釈の高い一貫性が確認され、文字列マッチングに基づくエンティティの識別を行った予備実験から、このコーパスには実質的に手のかかる(単純ではない)事例がかなりの数含まれていることが示唆され、評価ベンチマークとしての有用性が裏付けられる。

広告