Ethio-ASR:エチオピア言語のための、言語識別とマルチリンガル音声認識を統合した手法
arXiv cs.CL / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Ethio-ASRは、5つのエチオピア言語(アムハラ語、ティグリニャ語、オロモ語、シダーマ語、ウォライッタ語)を対象とした、複数言語対応のCTCベース自動音声認識モデル群を導入し、共同学習を行います。
- これらのモデルはWAXALコーパスを用いて学習され、複数の事前学習済み音声エンコーダを活用し、OmniASRのような強力なマルチリンガル基線に対して評価されています。
- 最良のEthio-ASRモデルは、WAXALのテストセットにおける平均単語誤り率(WER)を30.48%と報告しており、パラメータ数を大幅に少なくしながら、最良のOmniASR結果を上回っています。
- リリースには、性別バイアスの分析、母音の長さや子音の重子音(ジェミネーション)がASRエラーに与える影響、さらにマルチリンガルCTCシステムの学習ダイナミクスに関する洞察が含まれます。
- 著者らは、音声技術におけるエチオピア言語の深刻な過小代表の問題に取り組むことを目的として、モデルとコードベースを公開しています。