| VentureBeat:Mistral AIが、ElevenLabsを上回ると言うテキスト読み上げ(text-to-speech)モデルをついにリリースしました。そして重みを無料で提供しています:https://venturebeat.com/orchestration/mistral-ai-just-released-a-text-to-speech-model-it-says-beats-elevenlabs-and Mistral AIのYouTubeに非公開の動画:Voxtral TTS。自分の声を見つけよう。:https://www.youtube.com/watch?v=_N-ZGjGSVls Mistralの新しい404:https://mistral.ai/news/voxtral-tts [リンク] [コメント] |
Mistral AI、Voxtral TTSをリリースへ——オープンウェイトの30億パラメータ・テキスト読み上げモデル。人間の嗜好テストで同社はElevenLabs Flash v2.5を上回ったとしており、約3GBのRAMで動作、初回音声まで90ミリ秒、9言語に対応
Reddit r/LocalLLaMA / 2026/3/26
📰 ニュースSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research
要点
- Mistral AIは、オープンウェイトの30億パラメータ・テキスト読み上げ(TTS)モデル「Voxtral TTS」をリリースする予定で、人間の嗜好テストにおいてElevenLabs Flash v2.5を上回ると主張しています。
- 同社は、このモデルが約3GBのRAMで動作し、初回音声までの時間(time-to-first-audio)が約90ミリ秒であるとし、低遅延のリアルタイム用途を想定しています。
- Voxtral TTSは9言語に対応しており、開発者やプロダクトチーム向けに多言語の音声生成能力を広げることを目指しています。
- Mistralは、ローカルまたはセルフホストでの実験を可能にする形でモデルを共有し、最先端のTTS導入のハードルを下げる狙いがあります。