要約:
音声処理の顕著な進歩にもかかわらず、公的で大規模かつ高品質なデータセットの不足により、ポルトガル語は資源が不足しています。このギャップを埋めるため、TAGARELAと名付けられた新しいデータセットを紹介します。ポッドキャスト音声は8,972時間を超えるもので構成され、ASR(自動音声認識)およびTTS(テキスト音声合成)モデルの学習に特化して厳選されています。特筆すべきことに、その規模は英語版のGigaSpeech(10千時間)に匹敵し、最先端のポルトガル語モデルの実現を可能にします。データ品質を確保するため、コーパスは音声前処理パイプラインを経て、混合戦略で書き起こされました。具体的には、独自APIによって生成された高忠実度な書き起こしを用いて事前に訓練されたASRモデルを適用し、初期の高い精度を確保しました。最後に、この新しいリソースの有効性を検証するため、私たちは当データセットだけを用いて訓練したASRおよびTTSモデルを提示し、その性能を評価します。これにより、ポルトガル語のより堅牢で自然な音声技術の発展を促進する可能性を示します。データセットは公開されており、https://freds0.github.io/TAGARELA/ で利用可能です。堅牢な音声技術の開発を促進するためです。
TAGARELAは、ポルトガル語のASRおよびTTSのための公開データセットで、ポッドキャスト音声を約8,972時間以上含みます。
arXiv cs.CL / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- TAGARELAは、ポルトガル語のASRおよびTTSのための公開データセットで、ポッドキャスト音声を約8,972時間以上含みます。
- その規模は英語版GigaSpeechに匹敵し、最先端のポルトガル語モデルの実現を可能にするとともに、言語資源の不足という課題に対処します。
- データ品質は、音声前処理パイプラインと、独自APIからの高忠実度の文字起こしに基づいて構築されたASRモデルを用いた混合型の文字起こし戦略によって保証されました。
- データセットは https://freds0.github.io/TAGARELA/ で公開されており、堅牢なポルトガル語音声技術の開発を加速することを目的としています。




