Mistral AI、Voxtral TTSをリリースへ——オープンウェイトの30億パラメータ・テキスト読み上げモデル。人間の嗜好テストで同社はElevenLabs Flash v2.5を上回ったとしており、約3GBのRAMで動作、初回音声まで90ミリ秒、9言語に対応

Reddit r/LocalLLaMA / 2026/3/26

📰 ニュースSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • Mistral AIは、オープンウェイトの30億パラメータ・テキスト読み上げ(TTS)モデル「Voxtral TTS」をリリースする予定で、人間の嗜好テストにおいてElevenLabs Flash v2.5を上回ると主張しています。
  • 同社は、このモデルが約3GBのRAMで動作し、初回音声までの時間(time-to-first-audio)が約90ミリ秒であるとし、低遅延のリアルタイム用途を想定しています。
  • Voxtral TTSは9言語に対応しており、開発者やプロダクトチーム向けに多言語の音声生成能力を広げることを目指しています。
  • Mistralは、ローカルまたはセルフホストでの実験を可能にする形でモデルを共有し、最先端のTTS導入のハードルを下げる狙いがあります。
Mistral AIはVoxtral TTSをリリースするとしている。これは、公開された重みを備えた30億パラメータのテキスト読み上げ(text-to-speech)モデルで、同社によれば人間の嗜好テストにおいてElevenLabs Flash v2.5を上回ったという。モデルは約3GBのRAMで動作し、最初のオーディオまで90ミリ秒を達成し、9つの言語に対応している。

VentureBeat:Mistral AIが、ElevenLabsを上回ると言うテキスト読み上げ(text-to-speech)モデルをついにリリースしました。そして重みを無料で提供しています:https://venturebeat.com/orchestration/mistral-ai-just-released-a-text-to-speech-model-it-says-beats-elevenlabs-and

Mistral AIのYouTubeに非公開の動画:Voxtral TTS。自分の声を見つけよう。:https://www.youtube.com/watch?v=_N-ZGjGSVls

Mistralの新しい404:https://mistral.ai/news/voxtral-tts

投稿者 /u/Nunki08
[リンク] [コメント]