LoASR-Bench: 言語ファミリーを横断する低リソース自動音声認識における大規模SpeechLMの評価

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LoASR-Bench は、最新の SpeechLM の低リソース自動音声認識（ASR）性能を、ラテン文字と非ラテン文字のスクリプトを含む、9つの言語ファミリーに属する25言語で評価する包括的なベンチマークとして導入される。
本研究は、既存の SpeechLM が実世界の低リソース言語、および多様な言語ファミリーと文字スクリプトにまたがる一般化に苦戦していることを強調している。
これにより、言語間および文字スクリプト間の評価が可能となり、高リソース言語を超える SpeechLM ベースの ASR の一般化能力を測定できる。
実験結果は、現行の SpeechLM が実世界の低リソース言語を扱う際の限界を浮き彫りにし、今後の改善が必要な領域と、より頑健な多言語 ASR の開発の方向性を示している。

要旨: 大規模言語モデル（LLMs）は、音声言語モデル（SpeechLMs）における顕著な進歩を促し、高資源条件下での自動音声認識（ASR）において高い性能をもたらしました。しかし、既存のベンチマークは主に高資源言語に焦点を当てており、低資源言語における SpeechLMs の ASR の挙動は十分には理解されていません。このギャップは重大です。実用的な ASR システムは低資源言語を確実にサポートし、多様な言語族に跨って一般化する必要があり、それは現実世界の多言語シナリオにおける SpeechLM ベースの ASR の展開を直接妨げます。その結果、異なる言語族に跨って一般化可能性を確保するために、低資源言語で SpeechLMs を評価することが不可欠です。この問題に対処するため、\textbf{LoASR-Bench} を提案します。これは、最新の SpeechLMs の \textbf{lo}w-resource \textbf{a}utomatic \textbf{s}peech \textbf{r}ecognition (\textbf{ASR}) を、さまざまな言語族に跨って評価する包括的なベンチマークです。 LoASR-Bench は、9つの言語族からなる25言語を含み、ラテン文字と非ラテン文字の両方のスクリプトを特徴としており、現在の SpeechLM の ASR パフォーマンスを跨言語・跨スクリプトで評価できるようにします。実験結果は、実世界の低資源言語を扱う際の最新の SpeechLMs の限界を浮き彫りにします.