高齢者向け文脈データ拡張:音声合成による高齢者 ASR

arXiv cs.CL / 2026/4/29

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、LLM による書き起こしの言い換えと、高齢者の参照話者を用いた TTS 合成を組み合わせることで、高齢者 ASR(EASR)のための高齢者文脈データ拡張パイプラインを提案している。
  • 高齢者音声データセットから出発し、LLM が元の書き起こしに対して高齢者文脈のパラフレーズを生成し、TTS モデルがそれに対応する音声を合成して学習用の音声—テキスト対を作る。
  • 合成データと元データを統合して、モデル構造を変更せずに Whisper を微調整することで、EASR のデータ不足と高齢者の発話特性の違いに対処することを狙っている。
  • 英語・韓国語の高齢者(70歳以上)データセットでの実験では、従来の拡張手法より一貫して性能が向上し、Whisper ベースラインに対して最大 58.2% の WER 削減を達成した。
  • さらに、低リソースの EASR において、拡張比率や参照話者の構成が性能に与える影響も分析している。

要旨: 自動音声認識(ASR)の最近の進展にもかかわらず、高齢者ASR(EASR)は、学習データの限界と、高齢者の発話に固有の音響的および言語的特徴のため、依然として困難です。本研究では、大規模言語モデル(LLM)に基づく逐語の言い換え(パラフレーズ)と、テキスト読み上げ(TTS)合成を組み合わせたデータ拡張パイプラインにより、EASRにおけるデータ不足に取り組みます。高齢者音声データセットを与えると、まずLLMが元の逐語に対して高齢者文脈を反映したパラフレーズを生成し、次にTTSモデルが高齢者の参照話者を用いて対応する音声を合成します。生成された合成の音声—テキスト対を元データと統合し、アーキテクチャの変更なしでWhisperを微調整します。さらに、低資源EASRにおいて、拡張比率および参照話者の構成が与える影響を分析します。70歳以上の話者による英語および韓国語の高齢者音声データセットでの実験では、提案手法が従来の拡張ベースラインに対して一貫して性能を向上させ、Whisperベースラインと比較して最大で単語誤り率(WER)が58.2%削減されることを示しました。