JaiTTS:タイ語のボイス・クローンモデル
arXiv cs.CL / 2026/5/1
📰 ニュースModels & Research
要点
- JaiTTS-v1.0は、大規模なタイ語中心の音声コーパスでの継続学習によって開発された、タイ語のボイス・クローン向けテキスト読み上げ(TTS)モデルです。
- VoxCPMを基にしたトークナイザ不要の自己回帰型TTSアーキテクチャを採用し、数値やタイ語-英語のコードスイッチングを、明示的なテキスト正規化なしで直接扱えるようにしています。
- 短い音声生成と長い音声生成の両方で評価し、実運用のユースケースを反映しています。
- CERは1.94%で最先端の性能を報告し、短いタスクでは人間のグラウンドトゥルース(1.98%)をわずかに上回り、長いタスクでは人間レベルと同等の結果を示しています。
- 人の嗜好評価では、商用のフラッグシップ製品とのペア比較で283勝(58敗)と、ユーザー判断でも優位性が示されています。




