MzansiText と MzansiLM:南アフリカの言語のためのオープンコーパスおよびデコーダのみの言語モデル
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、南アフリカの11の公用の書き言葉を対象とした、キュレーション済みの多言語プリトレーニング・コーパスである MzansiText と、それに対応する再現可能なフィルタリング・パイプラインを紹介する。
- さらに、南アフリカの言語に特化してスクラッチから学習した、1億2500万パラメータのデコーダのみ言語モデル MzansiLM を公開する。
- 評価の結果、単言語のタスク特化ファインチューニングにより、データからテキストへの生成が強力に行えることが示され、isiXhosa で 20.65 BLEU を達成し、大規模なエンコーダ・デコーダモデルと競合しうる結果が得られる。
- 多言語のタスク特化ファインチューニングでは、密接に関連する言語のトピック分類が改善され、isiXhosa のニュース分類で 78.5% の macro-F1 を到達した。
- 著者らは、モデルが教師ありの NLU/NLG にはうまく適応する一方で、この規模では少数ショットの推論は依然として難しいことを見出し、公開するベースラインと、低リソース適応に関するガイダンスにつなげている。
関連記事
人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く
日経XTECH
文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か
日経XTECH
ClawRouter vs TeamoRouter:「1つは暗号ウォレットが必要、1つは不要」
Dev.to
大手テック企業はAI投資と統合を加速している一方、規制当局や企業は安全性と責任ある導入に注目している。
Dev.to

パランティアの億万長者CEO、「AI時代に成功できるのは2種類の人だけ」:職人・技能労働者——「またはあなたが神経多様性(neurodivergent)に当てはまる」
Reddit r/artificial