FMSD-TTS:『U-Tsang、Amdo、Kham』音声データセット生成のための少数ショット多話者・多方言テキスト対音声合成

arXiv cs.CL / 2026/4/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文では、チベット語の3大方言(U-Tsang、Amdo、Kham)に対して、並列音声コーパスが乏しい状況を改善することを目的に、FMSD-TTSという少数ショットの多話者・多方言TTSフレームワークを提案する。
  • FMSD-TTSは、話者—方言融合モジュールとDialect-Specialized Dynamic Routing Network(DSDR-Net)を用い、方言固有の音響・言語的な違いを捉えつつ話者の同一性を保持する。
  • 客観評価と主観評価の両方で、FMSD-TTSは方言の表現力と話者類似性の面でベースライン手法を大きく上回る。
  • さらに、生成した音声の有用性は難易度の高いスピーチ・トゥ・スピーチの方言変換タスクでも検証している。
  • 著者らは、限られた参照音声と明示的な方言ラベルを用いて並列な方言音声を生成できる点を強調し、データセット作成を迅速化する実用的な解としてFMSD-TTSを位置付けている。

Abstract

チベット語は、3つの主要方言である「ウーツァン、アムド、カム」にまたがる並列の発話コーパスが最小限である、低リソース言語です。これが音声モデリングの進展を制限しています。この課題に対処するために、本研究ではFMSD-TTSを提案します。FMSD-TTSは、限られた参照音声と明示的な方言ラベルから、並列の方言音声を合成する、少数ショット・多話者・多方言のテキストから音声へのフレームワークです。本手法は、新規の話者—方言融合モジュールと、方言特化型ダイナミック・ルーティング・ネットワーク(DSDR-Net)を備えており、話者アイデンティティを保持しながら、方言間における微細な音響的・言語的変化を捉えます。広範な客観評価と主観評価の結果により、FMSD-TTSが、方言の表現力と話者の類似性の両面において、ベースラインを大きく上回ることを示します。さらに、合成音声の品質と有用性を、困難な音声から音声への方言変換タスクによって検証します。貢献は次のとおりです:(1)チベット語の多方言音声合成に特化した新規の少数ショットTTSシステム、(2)FMSD-TTSによって生成された大規模な合成チベット語音声コーパスの公開、(3)話者類似性、方言の一貫性、音質を標準化して評価するためのオープンソースの評価ツールキット。