SozKZ:カザフ語をゼロから学習する、効率的な小型言語モデルのトレーニング

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、カザフ語の膠着的な形態論に最適化した専用の50K BPEトークナイザを用いて、カザフ語専用にゼロから学習した、Llamaアーキテクチャ系の小型言語モデル群(50M〜600Mパラメータ)であるSozKZを提案する。
  • SozKZは90億(9 billion)トークンのカザフ語データで学習し、カザフ語の3つのベンチマーク(文化的MC QA、読解理解、トピック分類)に加えて、最大3Bパラメータまでの多言語ベースラインでも評価される。
  • 600Mモデルは、カザフ語の文化的QAで30.3%の精度を達成し、はるかに小さいにもかかわらずLlama-3.2-1B(32.0%)に非常に近い結果となる。さらにトピック分類で25.5%を達成し、評価された最大2Bまでの多言語モデルを上回る。
  • 著者らは、50M〜600Mパラメータにわたって一貫したスケーリング挙動を報告しており、文化的QAの精度が22.8%から30.3%へ改善することから、さらなるスケーリングが有益である可能性を示唆している。
  • すべてのモデル重みとトークナイザはオープンライセンスで公開されており、このアプローチは低資源言語の技術に対する、計算効率の高い経路として位置づけられている。

Abstract

22百万人以上が話すチュルク語派の言語であるカザフ語は、既存の多言語言語モデルによる十分な支援がまだ得られていません。既存の多言語言語モデルは、低資源言語に割り当てる計算資源が最小限であることに加え、屈折語ではなく膠着的な形態論を持つ言語に適していないトークナイザを用いています。私たちはSozKZを提示します。これは、Llamaアーキテクチャのファミリーに属する言語モデル(50M〜600Mパラメータ)であり、カザフ語テキスト90億トークンを対象に、専用の50K BPEトークナイザを用いて、完全にゼロから学習しました。私たちは、カザフ語の3つのベンチマーク――複数選択式の文化QA、読解(Belebele)、話題分類(SIB-200)――で全モデルを評価し、さらに、パラメータ規模が500M〜3Bの5つの多言語ベースラインと比較します。600Mモデルは、カザフ語の文化QAで30.3%の精度を達成し、より大規模なLlama-3.2-1B(2倍)の32.0%に近づきます。また、SIB-200の話題分類では25.5%を示し、評価した2Bパラメータまでのすべての多言語モデルを上回ります。私たちは、50Mから600Mにかけて一貫したスケーリングが見られ、MC QAの精度が22.8%から30.3%へと上昇していることから、さらなるスケーリングも有益であることが示唆されます。これらの結果は、言語に適したトークナイザで、ゼロから学習した小規模で専用のモデルが、低資源言語の技術に対する実行可能な道筋を提供し得ることを示しています。すなわち、計算コストの一部で、競争力のある性能を実現できるのです。すべてのモデルとトークナイザはオープンライセンスのもとで公開されます。