Thiomiデータセット：低リソースのアフリカ言語向け大規模マルチモーダルコーパス

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Thiomiデータセットは、4つの言語系統にまたがる10のアフリカ言語を対象とした大規模マルチモーダルコーパスを導入し、文レベルのテキスト注釈と音声録音を対応付けている。
100人超の貢献者によるコミュニティのデータ収集プラットフォームを通じて集められ、601,000件以上の承認済みテキスト注釈と385,000件以上の音声録音を含む。さらに、Common Voiceからスワヒリ語の音声が補完されている。
複数段階の品質保証（QA）パイプラインにより、6つの中核言語で高いテキスト承認率（86〜100%）を達成し、大規模におけるデータセットの信頼性を支えている。
著者らは10言語すべてにわたってベースラインとなるASR（自動音声認識）、MT（機械翻訳）、TTS（テキスト読み上げ）モデルを学習し、ASRの結果が良好であることを報告している。具体例として、スワヒリ語で3.24%のWER、ソマリ語で4.3%のWERとなっている。
データセットと付随する手法は、Hugging Faceでの公開が計画されており、アフリカ言語の技術インフラの強化を目指している。

Abstract

私たちは、4つの言語系統にまたがる10のアフリカ言語を対象とした大規模マルチモーダルコーパスであるThiomi Datasetを提示します。対象言語はスワヒリ語、キクユ語、カンバ語、キメル語、ルオ語、マサイ語、キプシギス語、ソマリ語（東アフリカ）、ウォロフ語（西アフリカ）、フラニ語（西・中央アフリカ）です。このデータセットには、9言語にわたって承認済みの文レベルのテキスト注釈が60万件超、音声収録が38.5万件超含まれています。これは、100人超の貢献者を含む専用のコミュニティ・データ収集プラットフォームを通じて収集されました。Thiomiプラットフォームは9言語分のデータを収集し、スワヒリ語のデータは既存のCommon Voiceの収録で補完しました。多層の品質保証パイプラインにより、6つの主要言語でテキスト承認率86〜100%を達成しています。データセットの有用性を検証するために、ASR、MT、TTSモデルを訓練・評価し、10言語すべてにわたるベースラインを確立しました。最良のASRシステムは、スワヒリ語（Common Voice）でWER 3.24%を達成し、従来の学術的SOTAである8.3%から3.24%へと低下させました（絶対値で5.1ポイント、相対的に61%の削減）。さらに、ソマリ語ではWER 4.3%です。このデータセットはHuggingFaceで公開されます。収集プラットフォーム、品質保証ワークフロー、ベースライン実験について説明し、アフリカ言語の技術インフラへの示唆について議論します。