HATS:人間の知覚を統合したオープンデータセット—自動音声認識の評価指標の評価に適用

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文は、ASR(自動音声認識)の評価、とりわけ単語誤り率(WER)が、人間が文字起こしの品質をどう捉えるかを十分に反映できていないと主張しています。
  • 複数のASRシステムが生成した出力に対する「転記の誤り」に関する人間の知覚を扱う、新しいフランス語の手動注釈データセットHATSを提案します。
  • データセット作成では143人の参加者が、2つのASR仮説から「より良い自動転記」を選ぶ形で評価を行い、人間の判断と指標の対応関係を検証できるようにしています。
  • 人間の選好と、語彙ベースおよび埋め込みベースの各種評価指標(BERTScoreやセマンティック距離など)との関係を分析し、人間の知覚とより相関しやすい指標を探ります。
  • 総じて、本研究は、ASRの評価をシステム指向のスコアリングだけでなく、人間の知覚に近づけるためのデータと分析を提供します。

Abstract

従来、自動音声認識(ASR)システムは、音声信号に含まれる各単語を正しく認識できるかどうかによって評価されます。この文脈において、単語誤り率(WER)指標は音声書き起こし(transcripts)を評価するための基準となっています。これまでにいくつかの研究が、この指標ではASRシステムを正しく評価するには不十分であることを示しており、その結果、他の指標の変種(重み付きWER、BERTscore、意味距離など)が提案されてきました。しかし、それらは依然としてシステム指向のままであり、たとえ書き起こしが人間のために意図されている場合でも同様です。本論文ではまず、HATS(Human Assessed Transcription Side-by-side、対比較による人手評価書き起こし)を提示します。HATSは、複数のASRシステムが生成した転写エラーに関する人間の知覚に基づいて、フランス語で構築された独自の手動アノテーション付きデータセットです。143名の人間に対して、2つの仮説のうち最も良い自動書き起こしを選ばせました。さらに、語彙ベースや埋め込み(embedding)ベースのものを含む、さまざまなASR評価指標と、人間の嗜好(選好)との関係を調査しました。後者は、人間の知覚と最も相関するとされる指標です。