JaiTTS：タイ語のボイス・クローンモデル

arXiv cs.CL / 2026/5/1

📰 ニュースModels & Research

共有:

要点

JaiTTS-v1.0は、大規模なタイ語中心の音声コーパスでの継続学習によって開発された、タイ語のボイス・クローン向けテキスト読み上げ（TTS）モデルです。
VoxCPMを基にしたトークナイザ不要の自己回帰型TTSアーキテクチャを採用し、数値やタイ語-英語のコードスイッチングを、明示的なテキスト正規化なしで直接扱えるようにしています。
短い音声生成と長い音声生成の両方で評価し、実運用のユースケースを反映しています。
CERは1.94%で最先端の性能を報告し、短いタスクでは人間のグラウンドトゥルース（1.98%）をわずかに上回り、長いタスクでは人間レベルと同等の結果を示しています。
人の嗜好評価では、商用のフラッグシップ製品とのペア比較で283勝（58敗）と、ユーザー判断でも優位性が示されています。

Abstract

我々は、タイ語中心の大規模音声コーパスに対する継続学習（continual training）によって構築された、最先端のタイ語ボイスクローニング・テキスト読み上げ（text-to-speech）モデルであるJaiTTS-v1.0を提示する。モデルのアーキテクチャは、トークナイザ不要の自己回帰型TTSモデルであるVoxCPMから適応した。JaiTTS-v1.0は、現実的な設定で非常に一般的である数値およびタイ語-英語のコードスイッチングを、明示的なテキスト正規化なしに直接処理する。我々は、短い音声区間の生成と長い音声区間の生成の両方でモデルを評価し、多様な実世界の利用シーンを反映している。JaiTTS-v1.0は最先端のCER（文字誤り率）1.94\%を達成し、短い区間のタスクでは人間のグラウンドトゥルースである1.98%を上回る一方、長い区間のタスクでは人間のグラウンドトゥルースと同等の性能を示す。人手評価では、我々のモデルは商用のフラッグシップに対して400件の一対比較のうち283件で勝利し、敗北は58件のみであった。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

THE DECODER

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

Qiita

JaiTTS：タイ語のボイス・クローンモデル

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価