自動音声認識における言語モデルによるリスコアリングの定性的評価

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動音声認識（ASR）を評価する際にワード誤り率（WER）のみに注目することは、文字起こしの誤りを深く理解するには不十分だと主張しています。
ASRでの言語モデルによるリスコアリングの効果を、WER以外のNLPで用いられる指標を追加して検討することを提案しています。
具体的には、文法面の誤り傾向を示すPOSER（品詞誤り率）と、誤って転記された単語と本来の単語の意味的距離に基づいて誤りに重み付けするEmbERを導入しています。
この方法により、ASRの仮説に対する事後リスコアリング段階で言語モデルがどのように言語学的に寄与するかを明らかにすることを目指しています。

日経XTECH

Dev.to

ITmedia AI+

Dev.to

Dev.to