Ethio-ASR：エチオピア言語のための、言語識別とマルチリンガル音声認識を統合した手法

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Ethio-ASRは、5つのエチオピア言語（アムハラ語、ティグリニャ語、オロモ語、シダーマ語、ウォライッタ語）を対象とした、複数言語対応のCTCベース自動音声認識モデル群を導入し、共同学習を行います。
これらのモデルはWAXALコーパスを用いて学習され、複数の事前学習済み音声エンコーダを活用し、OmniASRのような強力なマルチリンガル基線に対して評価されています。
最良のEthio-ASRモデルは、WAXALのテストセットにおける平均単語誤り率（WER）を30.48%と報告しており、パラメータ数を大幅に少なくしながら、最良のOmniASR結果を上回っています。
リリースには、性別バイアスの分析、母音の長さや子音の重子音（ジェミネーション）がASRエラーに与える影響、さらにマルチリンガルCTCシステムの学習ダイナミクスに関する洞察が含まれます。
著者らは、音声技術におけるエチオピア言語の深刻な過小代表の問題に取り組むことを目的として、モデルとコードベースを公開しています。

Abstract

本稿では、エチオピアの5言語――アムハラ語、ティグリニャ語、オロモ語、シダーマ語、ウォライッタ語――に対して共同学習した、多言語CTCベースの自動音声認識（ASR）モデル群であるEthio-ASRを提案します。これらの言語はアフロアジア語族のセム語派、クシ語派、オモティック語派に属しており、エチオピアの人口の大多数によって話されているにもかかわらず、音声技術の分野では依然として著しく過小評価・未代表の状態が続いています。私たちは、最近公開されたWAXALコーパスを用いて、複数の事前学習済み音声エンコーダでモデルを学習し、OmniASRを含む強力な多言語ベースラインに対して評価します。私たちの最良モデルは、WAXALのテストセットにおいて平均WER 30.48%を達成し、はるかに少ないパラメータ数で、最良のOmniASRモデルを上回ります。さらに、性別バイアスに関する包括的な分析、母音の長さおよび子音の重複（gemination）がASR誤りに与える寄与、多言語CTCモデルの学習ダイナミクスも示します。私たちのモデルおよびコードベースは研究コミュニティに対して公開されています。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

Ethio-ASR：エチオピア言語のための、言語識別とマルチリンガル音声認識を統合した手法

要点

Abstract

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer