児童の音声に対する信頼できるASR出力を特定するための発話(ユッタンス)レベル手法
arXiv cs.CL / 2026/4/23
💬 オピニオンModels & Research
要点
- 本論文は、児童の音声を扱うアプリケーションで発生するASRの高い誤り率を背景に、発話単位で信頼できるASR出力を事前に見分ける手法を提案している。
- 信頼性の高いリード音声向けと対話音声向けの2つの発話レベル選択アプローチを導入し、それぞれに最適化している。
- 英語およびオランダ語のデータセットで、ベースラインと微調整(fine-tuned)モデルの両方を用いた評価を行い、最良戦略では読み上げ/対話の両種別、両言語において高い適合率(P > 97.4)を示した。
- 最適戦略を用いることで、対話/読み上げデータの21.0%〜55.9%を自動的に選択しつつ、誤り率を低く保つ(UER < 2.6)ことが可能になった。




