AI Navigate

インサイト最新記事一覧 AI大全

誰がいつ何を話したのか？意味と重なりを考慮した指標による会話型ASR向け話し言葉モデルの評価

arXiv cs.CL / 2026/3/25

📰 ニュース

原文を読む →

共有:

要点

本論文は、現実的な複数話者環境（発話の重なり、遠距離場ノイズ、話者数の変動）において、会話型ASR手法を評価し、単なる転写精度だけでなく意味の忠実性と重なりへの頑健性に焦点を当てます。
LLMベースのシステムと、モジュラー型のパイプラインアプローチを比較し、2話者シナリオではLLMベース手法が競争力を持つ一方、話者数や発話の重なりが増えるにつれて性能が低下することを示します。
通常の単語誤り率（WER）では見落とされがちな「意味の変化」をより適切に測るため、著者らは、埋め込みに基づく意味論的なtcpSemER（tcpWERの意味版）を導入します。
さらに、tcpWERを「重なりあり」と「重なりなし」の誤り成分に分解し、モデルがどこで失敗しているのかをよりきめ細かく診断できるようにします。
3つのデータセットにわたる実験により、強く重なった複数話者設定では、一般にモジュラー型パイプラインの方がLLMベースのシステムより頑健であるという結論が支持されます。

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

誰がいつ何を話したのか？意味と重なりを考慮した指標による会話型ASR向け話し言葉モデルの評価 | AI Navigate