BlasBench:アイルランド語音声認識のためのオープンベンチマーク

arXiv cs.CL / 2026/4/14

📰 ニュースTools & Practical UsageModels & Research

要点

  • BlasBenchは、fadas(アイルランド語のアクセント記号)、lenition(軟音化)、eclipsis(母音・子音の交替/隠蔽)といった言語的特徴を保持するためのアイルランド語対応のテキスト正規化を含む、オープンなアイルランド語特化ASR評価ハーネスである。
  • 本ベンチマークでは、共通の評価プロトコルのもとで、Common Voice ga-IEおよびFLEURS ga-IEを用いて、4つのアーキテクチャファミリにまたがる12のエンドユーザ向けASRシステムを評価する。
  • 結果として、すべてのWhisper系バリアントが100%を超えるWERを示し、アイルランド語音声認識に対する現行モデルの課題が浮き彫りになった。
  • 最良のオープンモデルであるomniASR LLM 7Bは、Common Voiceで30.65%のWER、FLEURSで39.09%のWERを達成し、オープンなアイルランド語ASRの新たなベースラインを設定した。
  • 重要な発見として、クロスデータセットでの汎化ギャップが挙げられる。すなわち、Common Voiceで微調整したモデルは、FLEURSで33〜43 WERポイント低下する。この低下は、単一データセットでの評価では見落とされがちである。

Abstract

アイルランド語に特化した公開ベンチマークは、共有されたアイルランド語を意識した評価プロトコルの下でエンドユーザー向けASRシステムを比較していません。これを解決するために、fadas、lenition、eclipsisを保持しつつ、アイルランド語を意識したテキスト正規化を行うオープンな評価ハーネスであるBlasBenchを公開します。Common Voiceのga-IEとFLEURSのga-IEに対して、4つのアーキテクチャ系統にまたがる12のシステムをベンチマークします。すべてのWhisper系バリアントが100%を超えるWERを達成しています。最良のオープンモデル(omniASR LLM 7B)は、Common Voiceで30.65%、FLEURSで39.09%のWERを達成しました。Common Voiceで微調整されたモデルは、FLEURSで33〜43 WERポイント低下することを確認しました。これは、単一データセットでの評価では見えない一般化ギャップを示しています。