誰がいつ何を話したのか?意味と重なりを考慮した指標による会話型ASR向け話し言葉モデルの評価
arXiv cs.CL / 2026/3/25
📰 ニュース
要点
- 本論文は、現実的な複数話者環境(発話の重なり、遠距離場ノイズ、話者数の変動)において、会話型ASR手法を評価し、単なる転写精度だけでなく意味の忠実性と重なりへの頑健性に焦点を当てます。
- LLMベースのシステムと、モジュラー型のパイプラインアプローチを比較し、2話者シナリオではLLMベース手法が競争力を持つ一方、話者数や発話の重なりが増えるにつれて性能が低下することを示します。
- 通常の単語誤り率(WER)では見落とされがちな「意味の変化」をより適切に測るため、著者らは、埋め込みに基づく意味論的なtcpSemER(tcpWERの意味版)を導入します。
- さらに、tcpWERを「重なりあり」と「重なりなし」の誤り成分に分解し、モデルがどこで失敗しているのかをよりきめ細かく診断できるようにします。
- 3つのデータセットにわたる実験により、強く重なった複数話者設定では、一般にモジュラー型パイプラインの方がLLMベースのシステムより頑健であるという結論が支持されます。