SiPaKosa:シンハラ語とパーリ語における典拠的および古典的仏教テキストの包括的コーパス
arXiv cs.CL / 2026/4/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SiPaKosaは、約786K文・約9.25M語を含む新しいバイリンガル(シンハラ語とパーリ語)仏教テキストのコーパスであり、著作権がクリアされた16の歴史文書と、リポジトリからウェブスクレイピングされた完全な三蔵(ティピタカ)の典拠テキストを組み合わせている。
- コーパス作成のパイプラインでは、歴史写本に対してGoogle Document AIによる高品質OCRを用い、典拠資料には体系的なウェブスクレイピングを行ったのち、品質管理と豊富なメタデータ付与を実施した。
- データは言語別のサブコーパス(シンハラ語、ならびに混合シンハラ語・パーリ語)として整理されており、言語変種にまたがる集中的な研究を可能にする。
- 著者らは、コーパス上で10個の事前学習済み言語モデルを評価し、パープレキシティの範囲が1.09〜189.67であることを示している。さらに、専有(プロプライエタリ)のモデルがオープンソースのモデルより約3〜6倍優れている。
- 本データセットは、領域適応型の言語モデル事前学習、歴史・言語分析、ならびに仏教学のための情報検索システムを支えることを目的として位置付けられている。
- 本研究は新たなarXivリリースとして明示的に告知されており(arXiv:2603.29221v1)、高品質で文化的に焦点を当てた訓練・評価データの利用可能性が高まる。




