概要: カシミール語のための、公開されている最大の事前学習データセットであるKS-PRET-5Mを提示します。このデータセットは5,090,244(5.09M)語、27,692,959(27.6M)文字、そして295,433(295.4K)の固有語タイプから成ります。データセットは2つのソースクラスから構築しました。すなわち、デジタル化されたアーカイブおよび文学資料で、これには文学、ニュース、伝記、小説、詩、宗教的な学術研究、ならびに学術的文章が含まれます。これらは、Malik~\cite{malik2024inpage}のコンバータを用いて、専有のInPageデスクトップパブリッシング形式から復元しました。加えて、カシミール語ウェブソースから収集したUnicodeネイティブのテキストです。すべてのテキストは11段階のクリーニング・パイプラインを通して処理され、平均してカシミール文字体系比率が0.9965となり、データセット全体でデーヴァナーガリー由来の混入を146文字にまで削減します。データセットをgoogle/muril-base-casedで経験的にトークナイズしたところ、単語あたりサブワード比率は2.383トークンであり、合計で約12.13百万のサブワードトークンとなりました。これは、カシミール語以外のペルシオ・アラビア語の類似データに基づく先行推定よりも大幅に高い値です。KS-PRET-5Mは、カシミール語の言語モデル事前学習、トークナイザ学習、計算言語学研究を支援するために、CC~BY~4.0のもとで単一の連続テキストストリームとして公開されます。
ks-pret-5m: 500万語、1200万トークンのカシミール語事前学習データセット
arXiv cs.CL / 2026/4/14
📰 ニュースSignals & Early TrendsModels & Research
要点
- KS-PRET-5Mは、公開されているカシミール語の事前学習データセットとして最大規模のものとして提示されており、約5.09M語(27.6M文字)と、295K語タイプの語彙を含む。




