要旨: 自動音声認識(ASR)は、従来、意味に対して鈍感な指標である単語誤り率(WER)を用いて評価される。埋め込みベースの意味論的メトリクスは、人間の知覚との相関がより高いが、デコーダ型の大規模言語モデル(LLM)がこのタスクにどの程度関連するのかは十分に調査されていない。本論文では、(1)2つの候補の間から最良の仮説を選択すること、(2)生成的埋め込みを用いて意味距離を計算すること、(3)誤りを質的に分類すること、という3つのアプローチによってその関連性を評価する。HATSデータセットでは、最良のLLMが仮説選択において人間の注釈者と92--94
%の一致を達成し、WERの63
%と比べて優れている。さらに、意味メトリクスも上回る。デコーダ型LLMから得られる埋め込みは、エンコーダモデルと同等の性能を示す。最後に、LLMは、解釈可能で意味論的なASR評価に向けた有望な方向性を提供する。
生成型大規模言語モデルによる自動音声認識(ASR)の評価
arXiv cs.CL / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 従来のASR評価で用いられる単語誤り率(WER)は意味を反映しにくいため、本研究では生成型LLMを用いて意味により整合する指標を検討している。
- LLMによるセマンティックなASR評価を、(1)2つの候補から最良仮説の選択、(2)生成エンベディングによるセマンティック距離の計算、(3)誤りを定性的に分類、の3手法で評価している。
- HATSデータセットでは、最良のLLMが仮説選択で人手アノテータとの一致率92〜94%を達成し、WERの63%を大幅に上回った。
- デコーダ型LLMのエンベディングはエンコーダ型と同等に近い性能を示しており、どちらの構成でも意味ベース評価に有効である可能性が示唆されている。
- 結果は、LLM駆動のASR評価が標準的なWERを超えて、解釈可能で意味を考慮した評価指標を提供しうることを示している。



