HATS:人間の知覚を統合したオープンデータセット—自動音声認識の評価指標の評価に適用
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- この論文は、ASR(自動音声認識)の評価、とりわけ単語誤り率(WER)が、人間が文字起こしの品質をどう捉えるかを十分に反映できていないと主張しています。
- 複数のASRシステムが生成した出力に対する「転記の誤り」に関する人間の知覚を扱う、新しいフランス語の手動注釈データセットHATSを提案します。
- データセット作成では143人の参加者が、2つのASR仮説から「より良い自動転記」を選ぶ形で評価を行い、人間の判断と指標の対応関係を検証できるようにしています。
- 人間の選好と、語彙ベースおよび埋め込みベースの各種評価指標(BERTScoreやセマンティック距離など)との関係を分析し、人間の知覚とより相関しやすい指標を探ります。
- 総じて、本研究は、ASRの評価をシステム指向のスコアリングだけでなく、人間の知覚に近づけるためのデータと分析を提供します。




