広告

Thiomiデータセット:低リソースのアフリカ言語向け大規模マルチモーダルコーパス

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Thiomiデータセットは、4つの言語系統にまたがる10のアフリカ言語を対象とした大規模マルチモーダルコーパスを導入し、文レベルのテキスト注釈と音声録音を対応付けている。
  • 100人超の貢献者によるコミュニティのデータ収集プラットフォームを通じて集められ、601,000件以上の承認済みテキスト注釈と385,000件以上の音声録音を含む。さらに、Common Voiceからスワヒリ語の音声が補完されている。
  • 複数段階の品質保証(QA)パイプラインにより、6つの中核言語で高いテキスト承認率(86〜100%)を達成し、大規模におけるデータセットの信頼性を支えている。
  • 著者らは10言語すべてにわたってベースラインとなるASR(自動音声認識)、MT(機械翻訳)、TTS(テキスト読み上げ)モデルを学習し、ASRの結果が良好であることを報告している。具体例として、スワヒリ語で3.24%のWER、ソマリ語で4.3%のWERとなっている。
  • データセットと付随する手法は、Hugging Faceでの公開が計画されており、アフリカ言語の技術インフラの強化を目指している。

Abstract

私たちは、4つの言語系統にまたがる10のアフリカ言語を対象とした大規模マルチモーダルコーパスであるThiomi Datasetを提示します。対象言語はスワヒリ語、キクユ語、カンバ語、キメル語、ルオ語、マサイ語、キプシギス語、ソマリ語(東アフリカ)、ウォロフ語(西アフリカ)、フラニ語(西・中央アフリカ)です。このデータセットには、9言語にわたって承認済みの文レベルのテキスト注釈が60万件超、音声収録が38.5万件超含まれています。これは、100人超の貢献者を含む専用のコミュニティ・データ収集プラットフォームを通じて収集されました。Thiomiプラットフォームは9言語分のデータを収集し、スワヒリ語のデータは既存のCommon Voiceの収録で補完しました。多層の品質保証パイプラインにより、6つの主要言語でテキスト承認率86〜100%を達成しています。データセットの有用性を検証するために、ASR、MT、TTSモデルを訓練・評価し、10言語すべてにわたるベースラインを確立しました。最良のASRシステムは、スワヒリ語(Common Voice)でWER 3.24%を達成し、従来の学術的SOTAである8.3%から3.24%へと低下させました(絶対値で5.1ポイント、相対的に61%の削減)。さらに、ソマリ語ではWER 4.3%です。このデータセットはHuggingFaceで公開されます。収集プラットフォーム、品質保証ワークフロー、ベースライン実験について説明し、アフリカ言語の技術インフラへの示唆について議論します。

広告