ATLAS:スウェーデンの百科事典の記事追跡・リンク付け・分析

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ATLASは、OCRだけでは活用できない歴史的百科事典の“基盤となる文字構造”の復元に取り組みます。
  • 見出し語(headword)の抽出、記事(エントリ)の同定と分類、複数版間での同一記事の突合、そしてWikidataアイテムへのリンク付けまでを一連のパイプラインとして実現しています。
  • パイプラインは、1876年から1951年に刊行された権威あるスウェーデン百科事典『Nordisk familjebok』の主要4版に適用されました。
  • 見出し語の抽出はF1 97.8%、見出し語の分類はF1 93.4%と高精度で、版をまたいだ突合は精度93%と良好な結果でした。
  • Wikidataリンクは小規模評価で精度85%に対して再現率16.5%であり、著者はデータセットとプログラムをオンラインで公開しています。

概要: 古い百科事典のデジタル化は、歴史的に構造化された知識へのアクセスを改善する重要な一歩です。しかし多くの場合、このプロセスは光学文字認識にとどまり、基礎となる構造はすべて活用されないままになっています。さらに、多くの百科事典には、知識の進化を反映した複数の版がありました。元のテキストに構造が欠けているため、これらの版にまたがる変更の追跡が困難になります。本研究では、テキストの構造を復元するためのパイプラインを構築しました。そこでは、見出し語(headwords)を抽出して項目を特定し、実体(entities)を分類し、版をまたいで項目を照合し、項目を Wikidata の項目にリンク付けします。このパイプラインを、1876年から1951年の間に刊行された権威あるスウェーデンの百科事典である extit{Nordisk familjebok} の主要な4つの版に適用しました。見出し語はF1スコア97.8 extbackslash%で抽出でき、見出し語の分類ではF1スコア93.4 extbackslash%を得ました。小規模な評価では、版をまたいだ照合について93 extbackslash%の適合率(precision)に到達し、Wikidata のリンク付けでは適合率85 extbackslash%、再現率16.5 extbackslash%でした。これは、デジタル化された歴史的知識に対して自動化されたアプローチが可能であることを示しています。これにより、一般知識の保存や、知識の伝達の理解が促進されるはずです。データセットとプログラムはオンラインで利用可能です。