ニューカッスル英語における自動音声認識(ASR)の偏りに関する社会言語学的分析

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DECTEコーパスの自発音声と、市販の最先端ASRシステムの出力を用いて、ニューカッスル英語に対する自動音声認識(ASR)の社会言語学的な偏りを検討する。
  • 3,000件以上の転写エラーを分析した結果、誤認識の大部分は、母音の質やglottalisation(声門化)といった音韻論的(方言特有の)変異によって引き起こされていることがわかった。さらに、地域語彙や非標準的な文法に関連する問題も、誤認識に寄与している。
  • ASRの誤り率はランダムではなく社会的にパターン化されており、性別によって変動し、また年齢層の両端に位置する話者で高くなることが報告されている。
  • 音響に関する事例研究により、連続的な音声学的変異(例:母音の特徴)が認識失敗に直接つながり得ることが示される。
  • 著者らは、ASRの公正性(エクイティ)を改善するには社会言語学的専門知識が必要であり、方言差を明示的に扱うこと、そしてコミュニティに基づく音声データにより導かれた評価/開発を行うことが求められると主張している。

概要: 自動音声認識(ASR)システムは、日常のコミュニケーション、教育、医療、産業などで広く利用されていますが、その性能は話者間で一様ではなく、特に方言による変化が、学習データに表現されている主流のアクセントから逸脱する場合に顕著です。本研究は、北東イングランドの地域的バリエーションであるニューカッスル英語を対象に、社会言語学的分析を通じてASRバイアスを調査します。ニューカッスル英語は、現在の音声認識技術に挑戦することが示されてきた方言です。ティーンサイド英語の通時的電子コーパス(DECTE)から自然発話を用い、最先端の商用ASRシステムの出力を評価するとともに、3,000件を超える転写エラーについて詳細な分析を行います。エラーは言語的領域ごとに分類され、性別、年齢、社会経済的地位といった社会的変数との関連で検討します。さらに、選択した母音特徴に関する音響ケーススタディにより、連続的な音声学的変化がどのように誤認識へ直接寄与するかを示します。
結果は、音韻的変化がエラーの大部分を占めることを示しています。また、反復的な失敗は、母音の質や喉頭化(glottalisation)といった方言特有の特徴、ならびに地域語彙や非標準的な文法形式に関連していることがわかりました。エラーレートは社会集団によっても異なり、男性および年齢スペクトルの両端に位置する話者で、エラー頻度が高いことが観察されます。これらの知見は、ASRのエラーがランダムではなく、社会的に特徴づけられたパターンであり、社会言語学的観点から説明できることを示唆しています。したがって本研究は、音声技術の評価と開発に社会言語学的専門知識を取り入れることの重要性を示し、より公平なASRシステムには、方言的変化とコミュニティに基づく音声データへの明示的な配慮が必要であると論じます。