Ethio-ASR:エチオピア言語のための、言語識別とマルチリンガル音声認識を統合した手法

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Ethio-ASRは、5つのエチオピア言語(アムハラ語、ティグリニャ語、オロモ語、シダーマ語、ウォライッタ語)を対象とした、複数言語対応のCTCベース自動音声認識モデル群を導入し、共同学習を行います。
  • これらのモデルはWAXALコーパスを用いて学習され、複数の事前学習済み音声エンコーダを活用し、OmniASRのような強力なマルチリンガル基線に対して評価されています。
  • 最良のEthio-ASRモデルは、WAXALのテストセットにおける平均単語誤り率(WER)を30.48%と報告しており、パラメータ数を大幅に少なくしながら、最良のOmniASR結果を上回っています。
  • リリースには、性別バイアスの分析、母音の長さや子音の重子音(ジェミネーション)がASRエラーに与える影響、さらにマルチリンガルCTCシステムの学習ダイナミクスに関する洞察が含まれます。
  • 著者らは、音声技術におけるエチオピア言語の深刻な過小代表の問題に取り組むことを目的として、モデルとコードベースを公開しています。

Abstract

本稿では、エチオピアの5言語――アムハラ語、ティグリニャ語、オロモ語、シダーマ語、ウォライッタ語――に対して共同学習した、多言語CTCベースの自動音声認識(ASR)モデル群であるEthio-ASRを提案します。これらの言語はアフロアジア語族のセム語派、クシ語派、オモティック語派に属しており、エチオピアの人口の大多数によって話されているにもかかわらず、音声技術の分野では依然として著しく過小評価・未代表の状態が続いています。私たちは、最近公開されたWAXALコーパスを用いて、複数の事前学習済み音声エンコーダでモデルを学習し、OmniASRを含む強力な多言語ベースラインに対して評価します。私たちの最良モデルは、WAXALのテストセットにおいて平均WER 30.48%を達成し、はるかに少ないパラメータ数で、最良のOmniASRモデルを上回ります。さらに、性別バイアスに関する包括的な分析、母音の長さおよび子音の重複(gemination)がASR誤りに与える寄与、多言語CTCモデルの学習ダイナミクスも示します。私たちのモデルおよびコードベースは研究コミュニティに対して公開されています。