Mistral、"Voxtral TTS"を発表:3秒の音声から任意の声をクローンできるオープンウェイトのテキスト・トゥ・ボイスモデル。9言語対応で、Elevenlabs Flash v2.5に対し68.4%の人間が好むという勝率を達成

Reddit r/LocalLLaMA / 2026/4/7

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Mistralは、Voxtral TTSというオープンウェイトのテキスト・トゥ・ボイス(TTS)モデルを発表しました。このモデルは、微調整や訓練の変更なし(ゼロショット)で、わずか3秒の音声から人物の声をクローンできると主張しています。
  • 本モデルは9言語をサポートし、例えばフランス語の音声プロンプトを使って英語の発話を生成するなど、言語をまたいだボイス・クローン(クロスリンガルな声のクローン)に対応すると報じられています。
  • Mistralは、ベンチマークでの好成績を報告しており、ElevenLabs Flash v2.5に対するゼロショットの多言語ボイス・クローンで、人間の嗜好勝率が68.4%に達したことを含みます。また、感情表現の豊かさと品質においてElevenLabs v3と同等の結果だとしています。
  • Voxtral TTSは低遅延(約70msのモデル遅延/Flash v2.5と同程度の「最初の音声までの時間」)で、3GBのRAM上でも動作できるほど効率的だと説明されており、スマートフォン/ラップトップ/エッジへの導入を狙っています。
  • Hugging Faceで重み(weights)を公開することで、Mistralは、ボイス・クローンやTTS市場における独自のAPIロック型アプローチへの挑戦としてVoxtral TTSを位置づけています。
Mistral、"Voxtral TTS"を発表:3秒の音声から任意の声をクローン可能なオープンウェイトのテキスト読み上げモデル。9言語対応。68.4%の人間の嗜好率でElevenlabs Flash V2.5を上回る。

ElevenLabsは、独自の重みとAPIのロックインによって塀を築きました。Mistralは、重みをHugging Faceに置いただけです。

このモデルは、声だけでなくその人自身も捉えます。アクセント、抑揚、イントネーション、ボーカルフィラー(「うん」「あー」)といった、声を合成っぽくではなく人間らしく聞かせる要素です。参照用の音声は3秒分。微調整はゼロ。ゼロショット。


主な見どころ:

  • → ゼロショットの多言語ボイス・クローニングで、ElevenLabs Flash v2.5に対して68.4%の勝率

  • → 対応9言語すべてで、ElevenLabs Flash v2.5を上回る

  • → 感情の表現力と品質において、ElevenLabs v3と同等

  • → モデルのレイテンシは70ms。高品質で、Flash v2.5と同じ「最初のオーディオまでの時間」

  • → 4Bパラメータ。3GB RAMで動作。スマートフォン、ラップトップ、エッジデバイス。

  • → 9言語:英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語

  • → 機械を介さないクロスリンガル・ボイス・クローニング:フランス語のボイス・プロンプトから英語の発話を、ものの出来上がりで生成


公式発表へのリンク: https://mistral.ai/news/voxtral-tts

論文へのリンク: https://arxiv.org/pdf/2603.25551

モデルの重みへのリンク: https://huggingface.co/mistralai/Voxtral-4B-TTS-2603
提供者: /u/44th--Hokage
[リンク] [コメント]