Voice of India:インドにおける現実世界の音声認識のための大規模ベンチマーク

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

要点

  • インドの各言語に対する現実世界の音声認識を評価することを目的に、台本のない電話会話を用いたクローズドソースのベンチマーク「Voice of India」を提示しています。
  • 15の主要言語を139の地域クラスターにまたがって収録し、306,230の発話(合計536時間)を36,691人の話者から集め、実際の表記ゆれを反映した転写を含めています。
  • 指定データに特化した過学習を抑え、さらに単一リファレンスのWERがインド諸言語やコードミックス(英語由来語の非標準表記を含む)で自然な揺れを不公平に罰してしまう点への改善を狙っています。
  • 地域(地区)レベルでの性能差に加えて、音質、話速、性別、デバイス種別などの要因ごとに分析し、現行ASRが弱い領域を明らかにしています。
  • 最終的に、多様な地域や収録環境でIndic ASRを改善するための示唆を提供しています。