概要:自動音声認識(ASR)の性能は、大規模で高品質なデータセットの入手可能性に大きく依存します。低リソース言語では、既存のオープンソースASRデータセットはしばしば品質不足と注釈の不整合により、堅牢なモデルの開発を妨げます。これらの課題に対処するため、さまざまなノイズを含む可能性のあるオープンソースソースから高品質なASRデータセットを構築するための、斬新で汎用的なデータ集約と前処理パイプラインを提案します。私たちのパイプラインは、データの多様性・バランス、そして単語レベルのタイムスタンプのような重要な特徴を含めることを保証する厳密な処理手順を組み込んでいます。私たちはこの方法論の有効性を、ベトナム語に適用することで実証します。その結果、統一された高品質の500時間のデータセットが得られ、最先端のベトナム語ASRシステムの訓練と評価の基盤を提供します。私たちのプロジェクトページは https://github.com/qualcomm-ai-research/PhoASR にあります。)
ベトナム語自動音声認識の再検討
arXiv cs.CL / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- オープンソースのASRデータにおける品質と注釈の不整合に対処するため、堅牢なデータ集約と前処理パイプラインを提案します。
- ベトナム語を対象にこのパイプラインを適用し、モデルの訓練・評価のための単語レベルのタイムスタンプを含む統一された500時間のデータセットを得ます。
- 低リソース言語のASRシステムの堅牢性を向上させるため、データの多様性とバランスを強調します。
- パイプラインの汎用性と結果の再現方法を示すGitHubのプロジェクトページ(PhoASR)を提供します。




