児童の音声に対する信頼できるASR出力を特定するための発話（ユッタンス）レベル手法

arXiv cs.CL / 2026/4/23

💬 オピニオンModels & Research

共有:

要点

本論文は、児童の音声を扱うアプリケーションで発生するASRの高い誤り率を背景に、発話単位で信頼できるASR出力を事前に見分ける手法を提案している。
信頼性の高いリード音声向けと対話音声向けの2つの発話レベル選択アプローチを導入し、それぞれに最適化している。
英語およびオランダ語のデータセットで、ベースラインと微調整（fine-tuned）モデルの両方を用いた評価を行い、最良戦略では読み上げ／対話の両種別、両言語において高い適合率（P > 97.4）を示した。
最適戦略を用いることで、対話／読み上げデータの21.0%〜55.9%を自動的に選択しつつ、誤り率を低く保つ（UER < 2.6）ことが可能になった。

Abstract

自動音声認識（ASR）は、言語学習や識字の獲得など、子どもの発話を扱うアプリケーションでますます活用されるようになっています。しかし、そのようなアプリケーションの有効性はASRの高い誤り率によって制限されています。これらの負の影響は、信頼できるASR出力が事前にどれかを特定することで軽減できます。本研究は、発話（utterance）レベルで信頼できるASR出力を選択するための2つの新しい手法の開発を目的としています。具体的には、音読音声（read speech）と対話音声（dialogue speech material）のそれぞれについて、信頼できる出力を選択する手法です。評価は英語データセットとオランダ語データセットのそれぞれで、ベースラインモデルとファインチューニングモデルの両方を用いて行いました。その結果、信頼できる転写が得られた音声収録を識別するための発話レベルの選択手法は、両言語において、音読音声と対話素材の両方で最良の戦略に対して高い適合率を示しました（P > 97.4）。現在の最適戦略を用いることで、対話／音読音声データセットの21.0%から55.9%を、低い誤り率（UERが< 2.6）で自動的に選択できます。