Thiomiデータセット:低リソースのアフリカ言語向け大規模マルチモーダルコーパス
arXiv cs.CL / 2026/4/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- Thiomiデータセットは、4つの言語系統にまたがる10のアフリカ言語を対象とした大規模マルチモーダルコーパスを導入し、文レベルのテキスト注釈と音声録音を対応付けている。
- 100人超の貢献者によるコミュニティのデータ収集プラットフォームを通じて集められ、601,000件以上の承認済みテキスト注釈と385,000件以上の音声録音を含む。さらに、Common Voiceからスワヒリ語の音声が補完されている。
- 複数段階の品質保証(QA)パイプラインにより、6つの中核言語で高いテキスト承認率(86〜100%)を達成し、大規模におけるデータセットの信頼性を支えている。
- 著者らは10言語すべてにわたってベースラインとなるASR(自動音声認識)、MT(機械翻訳)、TTS(テキスト読み上げ)モデルを学習し、ASRの結果が良好であることを報告している。具体例として、スワヒリ語で3.24%のWER、ソマリ語で4.3%のWERとなっている。
- データセットと付随する手法は、Hugging Faceでの公開が計画されており、アフリカ言語の技術インフラの強化を目指している。




