AI Navigate

多言語 TinyStories: 小型言語モデルを訓練するための、インド系児童向け物語の合成組み合わせコーパス

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 著者らは、17のインド系言語の児童向け物語からなる合成コーパス「Multilingual TinyStories」を紹介します。これは小型言語モデルを訓練するために設計されています。
  • ハイブリッド型キュレーション・パイプラインは、Sarvam-M 言語モデルと組合せ型プロンプトエンジニアリング、および Google Translate API を組み合わせて、広範な跨言語拡張を実現します。
  • リリースには132,942の物語が含まれ、総トークン数は93.9百万を超えます。すべて母語の固有文字体系に厳密にローカライズされています。
  • このデータセットは、リソースが乏しいインド系言語におけるデータ不足の課題に対処することを目的とし、SLMs(小型言語モデル)の多言語モデリングと転移学習を支援します。
  • 本リソースは、Indic 言語圏の多言語NLPに取り組む研究者および開発者にとって、基礎的なデータセットとして機能します。

要約: 低資源言語の堅牢な言語モデルの開発は、高品質で一貫性があり、かつドメイン適切なトレーニングコーパスの不足によってしばしば妨げられます。
本論文では、17のインドの言語を網羅する大規模で合成生成された児童向け物語データセットである Multilingual TinyStories データセットを紹介します。
Small Language Models(SLMs)の訓練と評価のために設計されたこのコーパスは、母語の文字体系に厳密に限定された、シンプルで物語性のあるテキストを提供します。
私たちは、ネイティブ生成のための新しい組合せ型プロンプトエンジニアリングフレームワークと、ネイティブ生成を支援する Sarvam-M 言語モデルを活用したハイブリッドなキュレーションパイプラインを詳述し、広範な大規模な多言語展開のために Google Translate API を併用します。
厳格なプログラム的フィルタリングを通じて、リリースには132,942件の物語と9300万を超えるトークンを含み、インド系言語圏における多言語言語モデリングと転移学習の基盤資源として機能します。