広告

SiPaKosa:シンハラ語とパーリ語における典拠的および古典的仏教テキストの包括的コーパス

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SiPaKosaは、約786K文・約9.25M語を含む新しいバイリンガル(シンハラ語とパーリ語)仏教テキストのコーパスであり、著作権がクリアされた16の歴史文書と、リポジトリからウェブスクレイピングされた完全な三蔵(ティピタカ)の典拠テキストを組み合わせている。
  • コーパス作成のパイプラインでは、歴史写本に対してGoogle Document AIによる高品質OCRを用い、典拠資料には体系的なウェブスクレイピングを行ったのち、品質管理と豊富なメタデータ付与を実施した。
  • データは言語別のサブコーパス(シンハラ語、ならびに混合シンハラ語・パーリ語)として整理されており、言語変種にまたがる集中的な研究を可能にする。
  • 著者らは、コーパス上で10個の事前学習済み言語モデルを評価し、パープレキシティの範囲が1.09〜189.67であることを示している。さらに、専有(プロプライエタリ)のモデルがオープンソースのモデルより約3〜6倍優れている。
  • 本データセットは、領域適応型の言語モデル事前学習、歴史・言語分析、ならびに仏教学のための情報検索システムを支えることを目的として位置付けられている。
  • 本研究は新たなarXivリリースとして明示的に告知されており(arXiv:2603.29221v1)、高品質で文化的に焦点を当てた訓練・評価データの利用可能性が高まる。

Abstract

SiPaKosaは、シンハラ語およびパーリ語の教義文書から成る包括的なコーパスであり、約786K文と9.25M語を含みます。ここには、著作権処理済みの歴史的仏教文書16件に加えて、ウェブから収集したTripitakaの正典テキスト一式が含まれています。このコーパスは、歴史的な写本に対してGoogle Document AIを用いた高品質なOCRを行い、その後に正典リポジトリに対する体系的なウェブスクレイピングを組み合わせ、厳格な品質管理とメタデータ付与を経て作成されました。コーパスは、言語別のサブコーパスに整理されています。すなわち、シンハラ語および混在シンハラ語‐パーリ語です。私たちは、10種類の事前学習済みモデルを用いて言語モデルの性能を評価し、このコーパス上でのパープレキシティスコアは1.09から189.67の範囲でした。この分析により、専有モデルはオープンソースの代替手法よりも3倍から6倍の要因で大幅に優れていることが示されます。このコーパスは、領域に適応した言語モデルの事前学習を支援し、歴史的言語分析を容易にし、シンハラの文化遺産を保ちながら仏教研究のための情報検索システムの開発にも役立ちます。

広告