BlasBench:アイルランド語音声認識のためのオープンベンチマーク
arXiv cs.CL / 2026/4/14
📰 ニュースTools & Practical UsageModels & Research
要点
- BlasBenchは、fadas(アイルランド語のアクセント記号)、lenition(軟音化)、eclipsis(母音・子音の交替/隠蔽)といった言語的特徴を保持するためのアイルランド語対応のテキスト正規化を含む、オープンなアイルランド語特化ASR評価ハーネスである。
- 本ベンチマークでは、共通の評価プロトコルのもとで、Common Voice ga-IEおよびFLEURS ga-IEを用いて、4つのアーキテクチャファミリにまたがる12のエンドユーザ向けASRシステムを評価する。
- 結果として、すべてのWhisper系バリアントが100%を超えるWERを示し、アイルランド語音声認識に対する現行モデルの課題が浮き彫りになった。
- 最良のオープンモデルであるomniASR LLM 7Bは、Common Voiceで30.65%のWER、FLEURSで39.09%のWERを達成し、オープンなアイルランド語ASRの新たなベースラインを設定した。
- 重要な発見として、クロスデータセットでの汎化ギャップが挙げられる。すなわち、Common Voiceで微調整したモデルは、FLEURSで33〜43 WERポイント低下する。この低下は、単一データセットでの評価では見落とされがちである。




