JaiTTS:タイ語のボイス・クローンモデル

arXiv cs.CL / 2026/5/1

📰 ニュースModels & Research

要点

  • JaiTTS-v1.0は、大規模なタイ語中心の音声コーパスでの継続学習によって開発された、タイ語のボイス・クローン向けテキスト読み上げ(TTS)モデルです。
  • VoxCPMを基にしたトークナイザ不要の自己回帰型TTSアーキテクチャを採用し、数値やタイ語-英語のコードスイッチングを、明示的なテキスト正規化なしで直接扱えるようにしています。
  • 短い音声生成と長い音声生成の両方で評価し、実運用のユースケースを反映しています。
  • CERは1.94%で最先端の性能を報告し、短いタスクでは人間のグラウンドトゥルース(1.98%)をわずかに上回り、長いタスクでは人間レベルと同等の結果を示しています。
  • 人の嗜好評価では、商用のフラッグシップ製品とのペア比較で283勝(58敗)と、ユーザー判断でも優位性が示されています。

Abstract

我々は、タイ語中心の大規模音声コーパスに対する継続学習(continual training)によって構築された、最先端のタイ語ボイスクローニング・テキスト読み上げ(text-to-speech)モデルであるJaiTTS-v1.0を提示する。モデルのアーキテクチャは、トークナイザ不要の自己回帰型TTSモデルであるVoxCPMから適応した。JaiTTS-v1.0は、現実的な設定で非常に一般的である数値およびタイ語-英語のコードスイッチングを、明示的なテキスト正規化なしに直接処理する。我々は、短い音声区間の生成と長い音声区間の生成の両方でモデルを評価し、多様な実世界の利用シーンを反映している。JaiTTS-v1.0は最先端のCER(文字誤り率)1.94\%を達成し、短い区間のタスクでは人間のグラウンドトゥルースである1.98%を上回る一方、長い区間のタスクでは人間のグラウンドトゥルースと同等の性能を示す。人手評価では、我々のモデルは商用のフラッグシップに対して400件の一対比較のうち283件で勝利し、敗北は58件のみであった。