Voxtral TTS

arXiv cs.AI / 2026/3/27

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Voxtral TTSは、約3秒の参照音声から自然な多言語音声を生成する表現力重視のテキスト・トゥ・スピーチ（TTS）モデルだと紹介されています。
セマンティック音声トークンは自己回帰で生成し、音響トークンはflow-matchingで生成するハイブリッド構成を採用しています。
音声トークンの符号化・復号には、ハイブリッドVQ-FSQ量子化の方針でスクラッチから学習されたVoxtral Codec（音声トークナイザ）を用います。
ネイティブスピーカーによる評価では、Voxtral TTSがElevenLabs Flash v2.5より自然さと表現力の面で優位となり、マルチリンガル音声クローンで68.4%の勝率を達成したと報告されています。
モデル重みはCC BY-NCライセンスで公開されています。

要旨: 我々はVoxtral TTSを紹介します。これは、参照音声がわずか3秒程度であっても自然な音声を生成できる、表現力豊かな多言語テキスト読み上げ（TTS）モデルです。Voxtral TTSは、意味音声トークンの自己回帰的生成と、音響トークンに対するフローマッチングを組み合わせたハイブリッドアーキテクチャを採用しています。これらのトークンは、ハイブリッドVQ-FSQ量子化方式に基づいてゼロから訓練された音声トークナイザであるVoxtral Codecで符号化および復号されます。ネイティブ話者による人間評価では、Voxtral TTSは自然さと表現力のために多言語ボイスクローニングで好まれ、ElevenLabs Flash v2.5に対して勝率68.4\%を達成しました。我々はモデルの重みをCC BY-NCライセンスの下で公開します。