高齢者向け文脈データ拡張：音声合成による高齢者 ASR

arXiv cs.CL / 2026/4/29

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、LLM による書き起こしの言い換えと、高齢者の参照話者を用いた TTS 合成を組み合わせることで、高齢者 ASR（EASR）のための高齢者文脈データ拡張パイプラインを提案している。
高齢者音声データセットから出発し、LLM が元の書き起こしに対して高齢者文脈のパラフレーズを生成し、TTS モデルがそれに対応する音声を合成して学習用の音声—テキスト対を作る。
合成データと元データを統合して、モデル構造を変更せずに Whisper を微調整することで、EASR のデータ不足と高齢者の発話特性の違いに対処することを狙っている。
英語・韓国語の高齢者（70歳以上）データセットでの実験では、従来の拡張手法より一貫して性能が向上し、Whisper ベースラインに対して最大 58.2% の WER 削減を達成した。
さらに、低リソースの EASR において、拡張比率や参照話者の構成が性能に与える影響も分析している。

要旨: 自動音声認識（ASR）の最近の進展にもかかわらず、高齢者ASR（EASR）は、学習データの限界と、高齢者の発話に固有の音響的および言語的特徴のため、依然として困難です。本研究では、大規模言語モデル（LLM）に基づく逐語の言い換え（パラフレーズ）と、テキスト読み上げ（TTS）合成を組み合わせたデータ拡張パイプラインにより、EASRにおけるデータ不足に取り組みます。高齢者音声データセットを与えると、まずLLMが元の逐語に対して高齢者文脈を反映したパラフレーズを生成し、次にTTSモデルが高齢者の参照話者を用いて対応する音声を合成します。生成された合成の音声—テキスト対を元データと統合し、アーキテクチャの変更なしでWhisperを微調整します。さらに、低資源EASRにおいて、拡張比率および参照話者の構成が与える影響を分析します。70歳以上の話者による英語および韓国語の高齢者音声データセットでの実験では、提案手法が従来の拡張ベースラインに対して一貫して性能を向上させ、Whisperベースラインと比較して最大で単語誤り率（WER）が58.2%削減されることを示しました。

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

高齢者向け文脈データ拡張：音声合成による高齢者 ASR

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力