AfriVoices-KE:ケニアの言語のための多言語音声データセット
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsModels & Research
要点
- AfriVoices-KEは、5つのケニア言語(Dholuo、Kikuyu、Kalenjin、Maasai、Somali)をカバーする約3,000時間規模の新しい大規模多言語音声データセットである。
- データセットには、台本付き音声750時間と自発音声2,250時間が含まれており、多様な地域や属性を持つ4,777人の母語話者から収集することで、実際の言語変異をより正確に反映することを目指している。
- データ収集では、台本付き手法(テキストコーパス、翻訳、ならびに11のケニア文脈ドメインに関連する生成文)と、テキストおよび画像プロンプトによる非台本の引き出し(エリシテーション)を併用した。
- スマートフォンベースのモバイルアプリにより投稿者の録音を支援し、品質保証では録音前の自動的な信号対雑音のチェックに加えて、内容の正確性を確認するための人手レビューを行った。
- 本プロジェクトは、音声技術におけるアフリカ言語の過少代表を解消することを目的とし、より包括的なASRおよびTTSシステムの実現に資するとともに、ケニアの言語的遺産のデジタル保存も支援することを目指している。




