AppTekコールセンターダイアログ:英語ASRのためのマルチアクセント・ロングフォーム・ベンチマーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • AppTekコールセンターダイアログは、自発的なロールプレイ会話を長尺コンテキストとして評価でき、複数の英語アクセントも明示的に扱えることで、英語ASR評価の重要な不足を補っています。
  • このコーパスは14の英語アクセントと16のサービス志向シナリオをカバーし、評価目的で特別に委託されており、音声・テキストはリリース前に公開されていません。
  • 本研究では、複数のオープンソースASRシステムをベンチマークし、セグメンテーション(区切り方)アプローチを変えて前処理の違いが認識品質に与える影響を検証しています。
  • 結果として、アクセントとセグメンテーション方法の双方で大きな性能差が見られ、一般的なアメリカ英語ベンチマークで良い成績でも他方言へは必ずしも汎化しないことが示されています。
  • つまりこの取り組みは、多様な話者や長い対話を扱う必要のある会話型AI用途に向けた、より現実的で頑健なベンチマークを提供しています。

概要: 会話型AIアプリケーション向けの英語ASRシステムを評価することは依然として難しいです。というのも、公開されている多くのコーパスは、短い区間にあらかじめ分割されているか、朗読または事前に用意された発話で構成されているか、あるいは多様なユーザーベースに対する頑健性を評価するための明示的な方言注釈が欠けているためです。本研究では、AppTek Call-Center Dialoguesコーパスを提示します。これは、16のサービス志向シナリオにまたがり、14の英語アクセントをカバーする自発的なロールプレイ形式のエージェント—顧客会話の集まりです。本データセットは評価のために特別に委託されており、リリース以前には音声もテキストも公開されていませんでした。これにより、既存の大規模な事前学習用コーパスとの重複リスクが低減されています。異なる分割アプローチのもとで、一連のオープンソースASRシステムをベンチマークしました。その結果、アクセントや分割手法間で大きなばらつきが見られました。つまり、一般的なアメリカ英語のベンチマークで良好な性能が得られても、それが他のアクセントに必ずしも一般化されるとは限らないことが示されています。