要旨: 本稿では、3つの最先端テキスト読み上げ(TTS)アーキテクチャ:XTTS v2、F5-TTS、DiFlow-TTSを用いて、ペルー憲法のための高品質なケチュア語およびスペイン語音声を合成する統一パイプラインを提案します。本モデルは、録音条件とデータサイズが異なる独立したスペイン語およびケチュア語の音声データセットで学習されており、二言語および多言語TTSの能力を活用して、両言語での合成品質を向上させます。さらに、言語横断転移を活用することで、ケチュア語におけるデータ不足を緩和しつつ、スペイン語の自然さを保持します。我々は、憲法の各条文ごとに学習済みチェックポイント、推論コード、および合成音声を公開し、先住民・多言語環境における音声技術の再利用可能なリソースを提供します。本研究は、低資源環境における政治・法律コンテンツ向けの包括的なTTSシステムの開発に貢献します。
憲法に声を与える:バイリンガルの法的コーパスを用いたケチュア語とスペイン語の低資源テキスト読み上げ
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 本論文は、XTTS v2、F5-TTS、DiFlow-TTSを用いて、ペルーの憲法を対象に高品質なケチュア語とスペイン語の音声を生成する、統一型のバイリンガル・テキスト読み上げ(TTS)パイプラインを提案する。
- スペイン語とケチュア語について別々の音声データセット(サイズや録音条件が異なる)でモデルを学習し、その後、バイリンガル/マルチリンガルTTSの機能を適用して、両言語にわたる出力品質を向上させる。
- 言語間転移を用いることで、ケチュア語データの不足による影響を低減しつつ、スペイン語の自然さを維持する。
- 著者らは、各憲法条文ごとに学習済みチェックポイント、推論コード、合成音声を公開し、本研究を先住民およびマルチリンガルTTSの再利用可能なリソースとして位置づける。
- 全体として、本研究は、低資源言語環境における政治・法的コンテンツのための、より包摂的な音声技術を目指している。
