要約: PashtoCorpを紹介します。パシュトー語の12.5億語からなるコーパスで、6000万人が話す言語ですが、NLPにおいて依然として著しく過小評価されています。コーパスは、7つのHuggingFaceデータセットを横断する39のソースと、32の専用ウェブスクレーパーから構築され、アラビア文字表記のトークン化、SHA-256重複排除、品質フィルタリングを用いた再現可能なパイプラインで処理されています。12.5億語、文書数281万において、PashtoCorpはOSCAR Pashtoサブセットの40倍、従来の最大規模のパシュトー語コーパスの83倍です。PashtoCorpを用いたXLM-R-baseの継続的なMLM事前学習は、検証データに対するパープレキシティを25.1%低減します(8.08→6.06)。WikiANN Pashto NERでは、事前学習済みモデルがエンティティF1を相対的に10%向上させ(19.0%→21.0%)、トレーニングの分散をほぼ7倍低減します。最大の利得は、50文の訓練データで現れ(+27%)、PashtoCorpはWikiANNのエンティティ語彙の97.9%をカバーします。Belebele Pashtoの読解では、Gemma-3nが64.6%の精度を達成し、このベンチマークでパシュトー語の初の公開LLMベースラインとなります。1ソースを除外するアブレーションは、Wikipedia(文書の0.7%)がNERにとって最も重要なソースであることを示しています。これを除くとエンティティF1は47%低下します。コーパスデータ、訓練済みモデル、およびコードは以下で利用可能です: https://huggingface.co/datasets/ihanif/pashto-corpus、https://huggingface.co/ihanif/xlmr-pashto、https://github.com/ihanif/pashto-corpus。
PashtoCorp: 12.5億語コーパス、評価スイート、低リソース言語開発のための再現性パイプライン
arXiv cs.CL / 2026/3/18
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- PashtoCorpは、HuggingFaceデータセットを横断する39のソースと32のカスタムウェブスクレーパーから成る12.5億語のパシュトー語コーパスで、これまでで最大のパシュトー語リソースとなる(OSCAR Pashtoの40倍、前回最大の83倍)。
- トレーニングと評価のためのクリーンなデータを保証するため、アラビア文字スクリプトのトークン化、SHA-256による重複排除、品質フィルタリングを組み込んだ再現性のあるパイプラインを使用します。
- PashtoCorpでXLM-R-baseを事前訓練すると、ホールドアウトパープレキシティが25.1%低下(8.08 → 6.06)し、言語モデリングの改善が顕著であることを示しています。
- WikiANN Pashto NERでの評価において、モデルは相対F1を10%向上させ(19.0% → 21.0%)、訓練時の分散を約7分の1に抑制し、Wikipediaが重要な情報源であることを示しています(Wikipediaを除去するとF1が47%低下します)。
- Belebele Pashtoリーディング・コンプリヘンションで、Gemma-3nは64.6%の精度を達成し、このベンチマークの初の公開済みパシュトー語LLMベースラインとなります。データ、モデル、コードはHuggingFaceとGitHubで公開されています。