ニューラルTTSシステムが子音によって生じるF0変動をモデル化できる能力の評価

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、局所的な調音メカニズムに結び付く子音誘起のF0変動を、ニューラルTTSモデルがどれほど正確に再現できるかを検証するための、セグメント(音節)レベルの韻律プロービング(調査)フレームワークを提案する。
  • 実験では、同一のLJ Speechコーパスで学習したTacotron 2およびFastSpeech 2を用い、語彙頻度に基づいて層別化した数千語に対して、合成音声と自然音声を比較する。
  • その結果、高頻度語では再現が正確である一方、低頻度語では汎化が弱いことが示される。これは、抽象的なセグメント—韻律の符号化というより、語彙レベルの暗記に依存していることを示唆する。
  • 著者らは、複数の高度なTTSシステムにわたって評価を拡張し、このプロービングを、TTS評価を改善し、解釈可能性と合成音声の真正性(オーセンティシティ)を評価するための、言語学的に根拠づけられた診断ツールとして提案する。

要旨: 本研究では、子音によって引き起こされるf0の摂動を再現する神経TTSモデルの能力を評価するための、セグメント(音節)レベルの韻律プロービング(探査)フレームワークを提案する。ここで対象とするのは、局所的な調音メカニズムを反映する、きわめて細かなセグメント韻律効果である。Tacotron 2 と FastSpeech 2 を同一の音声コーパス(LJ Speech)で学習し、それらを用いて、語彙頻度に基づいて層化した数千語に対して、合成音声と自然音声の実現を比較する。これらの統制された分析は、その後、複数の先進的なTTSシステムにまたがる大規模な評価によって補完される。結果は、高頻度語に対しては正確に再現できる一方で、低頻度語には一般化が不十分であることを示している。これは、検討したTTSアーキテクチャが、抽象的なセグメント韻律の符号化というよりは、語彙レベルの記憶により強く依存していることを示唆する。本発見は、こうしたTTSシステムが、観測されたデータを超えて韻律の細部を一般化する能力に限界があることを明らかにする。提案するプロービングは、言語学的に根拠のある診断フレームワークであり、今後のTTS評価手法に役立つ可能性がある。また、合成音声における解釈可能性および真正性評価にも含意を持つ。