HATS：人間の知覚を統合したオープンデータセット—自動音声認識の評価指標の評価に適用

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文は、ASR（自動音声認識）の評価、とりわけ単語誤り率（WER）が、人間が文字起こしの品質をどう捉えるかを十分に反映できていないと主張しています。
複数のASRシステムが生成した出力に対する「転記の誤り」に関する人間の知覚を扱う、新しいフランス語の手動注釈データセットHATSを提案します。
データセット作成では143人の参加者が、2つのASR仮説から「より良い自動転記」を選ぶ形で評価を行い、人間の判断と指標の対応関係を検証できるようにしています。
人間の選好と、語彙ベースおよび埋め込みベースの各種評価指標（BERTScoreやセマンティック距離など）との関係を分析し、人間の知覚とより相関しやすい指標を探ります。
総じて、本研究は、ASRの評価をシステム指向のスコアリングだけでなく、人間の知覚に近づけるためのデータと分析を提供します。

Abstract

従来、自動音声認識（ASR）システムは、音声信号に含まれる各単語を正しく認識できるかどうかによって評価されます。この文脈において、単語誤り率（WER）指標は音声書き起こし（transcripts）を評価するための基準となっています。これまでにいくつかの研究が、この指標ではASRシステムを正しく評価するには不十分であることを示しており、その結果、他の指標の変種（重み付きWER、BERTscore、意味距離など）が提案されてきました。しかし、それらは依然としてシステム指向のままであり、たとえ書き起こしが人間のために意図されている場合でも同様です。本論文ではまず、HATS（Human Assessed Transcription Side-by-side、対比較による人手評価書き起こし）を提示します。HATSは、複数のASRシステムが生成した転写エラーに関する人間の知覚に基づいて、フランス語で構築された独自の手動アノテーション付きデータセットです。143名の人間に対して、2つの仮説のうち最も良い自動書き起こしを選ばせました。さらに、語彙ベースや埋め込み（embedding）ベースのものを含む、さまざまなASR評価指標と、人間の嗜好（選好）との関係を調査しました。後者は、人間の知覚と最も相関するとされる指標です。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

HATS：人間の知覚を統合したオープンデータセット—自動音声認識の評価指標の評価に適用

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣