Mistral AI、Voxtral TTSをリリース：低レイテンシの多言語音声生成のための4Bオープンウェイト・ストリーミング音声合成モデル

MarkTechPost / 2026/3/29

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Mistral AIは、低レイテンシの多言語音声生成を目的とした4Bのオープンウェイト、ストリーミング対応テキスト・トゥ・スピーチ（TTS）モデル「Voxtral TTS」をリリースした。
今回のリリースは、音声生成領域へのMistralの最初の主要参入を意味し、これまでの文字起こしおよび言語関連の提供に最終出力層を加えることで、「オーディオ・スタック」を完成させた。
モデルをオープンウェイト化することで、Mistralは独自の音声TTS APIと競合し、開発者エコシステムでの存在感を拡大することを狙っている。
Voxtral TTSは、クローズドな商用代替手段と比べて、より制御可能でカスタマイズ可能な音声生成パイプラインを開発者が構築できるようにすることを目指している。

Mistral AI は、音声生成への同社初の大きな進出を示すオープンウェイトのテキスト読み上げ（TTS）モデル「Voxtral TTS」をリリースしました。文字起こしおよび言語モデルのリリースに続き、Mistral は現在、音声スタックの最終「‘output layer’（出力層）」を提供しており、開発者エコシステムにおける独自の音声APIに対する直接の競合として位置付けています。 […]

この投稿 Mistral AI Releases Voxtral TTS: A 4B Open-Weight Streaming Speech Model for Low-Latency Multilingual Voice Generation は、MarkTechPost に最初に掲載されました。