Mistral AI、Voxtral TTSをリリースへ——オープンウェイトの30億パラメータ・テキスト読み上げモデル。人間の嗜好テストで同社はElevenLabs Flash v2.5を上回ったとしており、約3GBのRAMで動作、初回音声まで90ミリ秒、9言語に対応

Reddit r/LocalLLaMA / 2026/3/26

📰 ニュースSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

共有:

要点

Mistral AIは、オープンウェイトの30億パラメータ・テキスト読み上げ（TTS）モデル「Voxtral TTS」をリリースする予定で、人間の嗜好テストにおいてElevenLabs Flash v2.5を上回ると主張しています。
同社は、このモデルが約3GBのRAMで動作し、初回音声までの時間（time-to-first-audio）が約90ミリ秒であるとし、低遅延のリアルタイム用途を想定しています。
Voxtral TTSは9言語に対応しており、開発者やプロダクトチーム向けに多言語の音声生成能力を広げることを目指しています。
Mistralは、ローカルまたはセルフホストでの実験を可能にする形でモデルを共有し、最先端のTTS導入のハードルを下げる狙いがあります。

VentureBeat：Mistral AIが、ElevenLabsを上回ると言うテキスト読み上げ（text-to-speech）モデルをついにリリースしました。そして重みを無料で提供しています：https://venturebeat.com/orchestration/mistral-ai-just-released-a-text-to-speech-model-it-says-beats-elevenlabs-and

Mistral AIのYouTubeに非公開の動画：Voxtral TTS。自分の声を見つけよう。：https://www.youtube.com/watch?v=_N-ZGjGSVls

日経XTECH

Mistral AI Blog

Dev.to

Dev.to

Dev.to