AI Navigate

SiDiaC-v.2.0: シンハラ語ディアクロニック・コーパス バージョン2.0

arXiv cs.CL / 2026/3/12

📰 ニュースModels & Research

要点

  • SiDiaC-v.2.0はこれまでで最大のシンハラ語ディアクロニック・コーパスであり、1800年〜1955年の出版日と、5世紀〜20世紀の執筆年代を網羅しています。
  • 徹底したフィルタリング、前処理、著作権遵守チェックを経た185の文学作品にわたる244,000語を含み、執筆年代で注釈付けされた70,000語の59文書のサブセットも含みます。
  • テキストはGoogle Document AI OCRを用いてデジタル化され、フォーマットの修正、コード混在への対応、特殊トークンの追加、不正確なトークンの修復を行うポスト処理が施され、構文注釈とテキスト正規化の戦略はFarPaHC、SiDiaC-v.1.0、CCOHAに基づいています。
  • 本コーパスは二層のジャンル分類を採用しています(一次分類はノンフィクション vs フィクション、二次分類は宗教、歴史、詩、言語、医療)。資源が限られている状況にもかかわらず、SiDiaC-v.2.0はシンハラ語NLPを支援し、前身のSiDiaC-v.1.0の成果を踏まえています。
  • 資源不足による課題にもかかわらず、SiDiaC-v.2.0はシンハラ語NLPの総合リソースとして機能し、SiDiaC-v.1.0でこれまでに行われた作業を基盤としています。
SiDiaC-v.2.0は、出版日が1800年から1955年、執筆日付が5世紀から20世紀までの歴史的範囲を対象とする、これまでで最大級の総合的シンハラ語ディアクロニック・コーパスです。コーパスは185の文学作品にわたって244,000語を含み、徹底したフィルタリング、前処理、著作権遵守チェックを経て、広範なポスト処理が行われました。さらに、執筆日付に基づいて注釈が付けられた70,000語の合計59文書のサブセットも含まれます。スリランカ国立図書館のテキストは、SiDiaC-v.1.0の非フィルタ済みリストから選択され、Google Document AI OCRを用いてデジタル化されました。これに続くフォーマットの修正、コード混在への対応、特殊トークンの追加、および不正確なトークンの修復を行うポスト処理が行われました。SiDiaC-v.2.0の構築は、FarPaHC、SiDiaC-v.1.0、CCOHAなどの他のコーパスの実践に基づき、低資源言語の共通特性を踏まえた統語注釈およびテキスト正規化戦略に関して特に関連性が高いものでした。本コーパスは二層のジャンル分類に基づいて分類されます。一次分類は二項で、各書籍をノンフィクションまたはフィクションのいずれかに割り当てます。二次分類はより詳細で、宗教、歴史、詩、言語、医療などの特定のジャンルの下にテキストをグループ化します。限られた資源の問題にもかかわらず、SiDiaC-v.2.0はシンハラ語NLPの総合的リソースとして機能し、SiDiaC-v.1.0で以前に行われた作業を基に構築されています。)