ks-pret-5m: 500万語、1200万トークンのカシミール語事前学習データセット

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

KS-PRET-5Mは、公開されているカシミール語の事前学習データセットとして最大規模のものとして提示されており、約5.09M語（27.6M文字）と、295K語タイプの語彙を含む。

概要: カシミール語のための、公開されている最大の事前学習データセットであるKS-PRET-5Mを提示します。このデータセットは5,090,244（5.09M）語、27,692,959（27.6M）文字、そして295,433（295.4K）の固有語タイプから成ります。データセットは2つのソースクラスから構築しました。すなわち、デジタル化されたアーカイブおよび文学資料で、これには文学、ニュース、伝記、小説、詩、宗教的な学術研究、ならびに学術的文章が含まれます。これらは、Malik~\cite{malik2024inpage}のコンバータを用いて、専有のInPageデスクトップパブリッシング形式から復元しました。加えて、カシミール語ウェブソースから収集したUnicodeネイティブのテキストです。すべてのテキストは11段階のクリーニング・パイプラインを通して処理され、平均してカシミール文字体系比率が0.9965となり、データセット全体でデーヴァナーガリー由来の混入を146文字にまで削減します。データセットをgoogle/muril-base-casedで経験的にトークナイズしたところ、単語あたりサブワード比率は2.383トークンであり、合計で約12.13百万のサブワードトークンとなりました。これは、カシミール語以外のペルシオ・アラビア語の類似データに基づく先行推定よりも大幅に高い値です。KS-PRET-5Mは、カシミール語の言語モデル事前学習、トークナイザ学習、計算言語学研究を支援するために、CC~BY~4.0のもとで単一の連続テキストストリームとして公開されます。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

ks-pret-5m: 500万語、1200万トークンのカシミール語事前学習データセット

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵