| ElevenLabsは、独自の重みとAPIのロックインによって塀を築きました。Mistralは、重みをHugging Faceに置いただけです。 このモデルは、声だけでなくその人自身も捉えます。アクセント、抑揚、イントネーション、ボーカルフィラー(「うん」「あー」)といった、声を合成っぽくではなく人間らしく聞かせる要素です。参照用の音声は3秒分。微調整はゼロ。ゼロショット。 主な見どころ:
公式発表へのリンク: https://mistral.ai/news/voxtral-tts論文へのリンク: https://arxiv.org/pdf/2603.25551モデルの重みへのリンク: https://huggingface.co/mistralai/Voxtral-4B-TTS-2603[リンク] [コメント] |
Mistral、"Voxtral TTS"を発表:3秒の音声から任意の声をクローンできるオープンウェイトのテキスト・トゥ・ボイスモデル。9言語対応で、Elevenlabs Flash v2.5に対し68.4%の人間が好むという勝率を達成
Reddit r/LocalLLaMA / 2026/4/7
📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- Mistralは、Voxtral TTSというオープンウェイトのテキスト・トゥ・ボイス(TTS)モデルを発表しました。このモデルは、微調整や訓練の変更なし(ゼロショット)で、わずか3秒の音声から人物の声をクローンできると主張しています。
- 本モデルは9言語をサポートし、例えばフランス語の音声プロンプトを使って英語の発話を生成するなど、言語をまたいだボイス・クローン(クロスリンガルな声のクローン)に対応すると報じられています。
- Mistralは、ベンチマークでの好成績を報告しており、ElevenLabs Flash v2.5に対するゼロショットの多言語ボイス・クローンで、人間の嗜好勝率が68.4%に達したことを含みます。また、感情表現の豊かさと品質においてElevenLabs v3と同等の結果だとしています。
- Voxtral TTSは低遅延(約70msのモデル遅延/Flash v2.5と同程度の「最初の音声までの時間」)で、3GBのRAM上でも動作できるほど効率的だと説明されており、スマートフォン/ラップトップ/エッジへの導入を狙っています。
- Hugging Faceで重み(weights)を公開することで、Mistralは、ボイス・クローンやTTS市場における独自のAPIロック型アプローチへの挑戦としてVoxtral TTSを位置づけています。




