MzansiText と MzansiLM:南アフリカの言語のためのオープンコーパスおよびデコーダのみの言語モデル

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、南アフリカの11の公用の書き言葉を対象とした、キュレーション済みの多言語プリトレーニング・コーパスである MzansiText と、それに対応する再現可能なフィルタリング・パイプラインを紹介する。
  • さらに、南アフリカの言語に特化してスクラッチから学習した、1億2500万パラメータのデコーダのみ言語モデル MzansiLM を公開する。
  • 評価の結果、単言語のタスク特化ファインチューニングにより、データからテキストへの生成が強力に行えることが示され、isiXhosa で 20.65 BLEU を達成し、大規模なエンコーダ・デコーダモデルと競合しうる結果が得られる。
  • 多言語のタスク特化ファインチューニングでは、密接に関連する言語のトピック分類が改善され、isiXhosa のニュース分類で 78.5% の macro-F1 を到達した。
  • 著者らは、モデルが教師ありの NLU/NLG にはうまく適応する一方で、この規模では少数ショットの推論は依然として難しいことを見出し、公開するベースラインと、低リソース適応に関するガイダンスにつなげている。