多言語 TinyStories: 小型言語モデルを訓練するための、インド系児童向け物語の合成組み合わせコーパス

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

著者らは、17のインド系言語の児童向け物語からなる合成コーパス「Multilingual TinyStories」を紹介します。これは小型言語モデルを訓練するために設計されています。
ハイブリッド型キュレーション・パイプラインは、Sarvam-M 言語モデルと組合せ型プロンプトエンジニアリング、および Google Translate API を組み合わせて、広範な跨言語拡張を実現します。
リリースには132,942の物語が含まれ、総トークン数は93.9百万を超えます。すべて母語の固有文字体系に厳密にローカライズされています。
このデータセットは、リソースが乏しいインド系言語におけるデータ不足の課題に対処することを目的とし、SLMs（小型言語モデル）の多言語モデリングと転移学習を支援します。
本リソースは、Indic 言語圏の多言語NLPに取り組む研究者および開発者にとって、基礎的なデータセットとして機能します。

要約: 低資源言語の堅牢な言語モデルの開発は、高品質で一貫性があり、かつドメイン適切なトレーニングコーパスの不足によってしばしば妨げられます。
本論文では、17のインドの言語を網羅する大規模で合成生成された児童向け物語データセットである Multilingual TinyStories データセットを紹介します。
Small Language Models（SLMs）の訓練と評価のために設計されたこのコーパスは、母語の文字体系に厳密に限定された、シンプルで物語性のあるテキストを提供します。
私たちは、ネイティブ生成のための新しい組合せ型プロンプトエンジニアリングフレームワークと、ネイティブ生成を支援する Sarvam-M 言語モデルを活用したハイブリッドなキュレーションパイプラインを詳述し、広範な大規模な多言語展開のために Google Translate API を併用します。
厳格なプログラム的フィルタリングを通じて、リリースには132,942件の物語と9300万を超えるトークンを含み、インド系言語圏における多言語言語モデリングと転移学習の基盤資源として機能します。

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

多言語 TinyStories: 小型言語モデルを訓練するための、インド系児童向け物語の合成組み合わせコーパス

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。 〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜