FMSD-TTS:『U-Tsang、Amdo、Kham』音声データセット生成のための少数ショット多話者・多方言テキスト対音声合成
arXiv cs.CL / 2026/4/27
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文では、チベット語の3大方言(U-Tsang、Amdo、Kham)に対して、並列音声コーパスが乏しい状況を改善することを目的に、FMSD-TTSという少数ショットの多話者・多方言TTSフレームワークを提案する。
- FMSD-TTSは、話者—方言融合モジュールとDialect-Specialized Dynamic Routing Network(DSDR-Net)を用い、方言固有の音響・言語的な違いを捉えつつ話者の同一性を保持する。
- 客観評価と主観評価の両方で、FMSD-TTSは方言の表現力と話者類似性の面でベースライン手法を大きく上回る。
- さらに、生成した音声の有用性は難易度の高いスピーチ・トゥ・スピーチの方言変換タスクでも検証している。
- 著者らは、限られた参照音声と明示的な方言ラベルを用いて並列な方言音声を生成できる点を強調し、データセット作成を迅速化する実用的な解としてFMSD-TTSを位置付けている。




