Mistralの最初のオープンウェイトTTSモデル「Voxtral」、9つの言語で3秒の音声から声をクローン

THE DECODER / 2026/3/27

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Mistralは、9つの言語をサポートする初のオープンウェイトのテキスト・トゥ・スピーチ(TTS)モデル「Voxtral」をリリースしました。
  • Voxtralは、参照用の音声として3秒分だけで話者の声をクローンできます。
  • 今回のリリースにより、Mistralは急成長している音声生成およびTTSツールの分野で、直接的な競合として位置づけられます。
  • モデルがオープンウェイトであるため、開発者や研究者は音声クローンのワークフローをより容易に実験し、適応できる可能性があります。
  • 9言語対応により、単一の市場や言語にとどまらない、より幅広い実世界での導入シナリオが見込まれます。

フランスのAIスタートアップMistralは、9つの言語をサポートし、音声のたった3秒から声をクローンできる同社初のテキスト読み上げ(TTS)モデル「Voxtral」をリリースしました。

この記事のMistralの初のオープンウェイトTTSモデル「Voxtral」は、9つの言語で音声の3秒から声をクローンするは、The Decoderに初めて掲載されました。