仏AI企業ミストラル(Mistral)は木曜日、新しいオープンソースのテキスト読み上げ(text-to-speech)モデルをリリースした。同モデルは音声AIアシスタントでの利用、またはカスタマーサポートのようなエンタープライズ向けユースケースで使用できる。企業が営業や顧客エンゲージメントのための音声エージェントを構築できるこのモデルにより、ミストラルはElevenLabs、Deepgram、OpenAIといった主要プレイヤーと直接の競争関係に入る。
新モデルはVoxtral TTSと呼ばれ、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語を含む9言語に対応している。
「顧客から“音声モデルが欲しい”という要望が寄せられていました。そこで、スマートウォッチ、スマートフォン、ラップトップ、その他のエッジデバイスに収まるような小型の音声モデルを開発しました。市場にある他の何よりもコストははるかに安いのに、最先端のパフォーマンスを提供します」と、ミストラルAI(Mistral AI)の科学オペレーション担当VPであるピエール・ストック(Pierre Stock)は、電話インタビューでTechCrunchに語った。

ミストラルは、新しいモデルが5秒未満のサンプルでカスタム音声に適応できるだけでなく、微妙なアクセント、イントネーション、抑揚、発話の流れにおける不規則性といった特徴も捉えられると述べている。同モデルはMinistral 3Bをベースにしており、音声の特徴を失うことなく言語間を容易に切り替えられる。このため、吹き替えやリアルタイム翻訳といったユースケースに役立つ。ストックは、同社がモデルを「人間らしく」し、ロボットのように聞こえないようにしたいと考えていたと語った。
同社によれば、このモデルはリアルタイムでのパフォーマンスのために構築された。時間から最初の音声まで(TTFA)——入力を受け取った後にモデルが「話し始める」までのタイミング——は、500文字の10秒サンプルに対して90msだ。さらに、リアルタイム係数(RTF)は6xで、10秒のクリップをおよそ1.6秒で生成できることを意味する。

今年初め、ミストラルは「書き起こしモデルのペア」をリリースしていた。1つは大規模なバッチ処理向け、もう1つは低遅延のリアルタイム用途向けだ。新しい音声モデルによって、同社は企業向けに音声プロダクトの包括的なラインナップを提供することを狙っている可能性が高い。
「音声、テキスト、画像といった入力のマルチモーダルなストリームを処理でき、さらに出力も行えるエンドツーエンドのプラットフォームを用意する予定です。その主な利点は、エンドツーエンドのエージェントシステムで、入力または出力として音声をサポートすることで、より多くの情報を得られることです」とストックは述べた。
Disrupt 2026:テック・エコシステムを1つの部屋に
次のラウンド。次の採用。次のブレイク機会。 10,000人以上の創業者、投資家、テックリーダーが集うTechCrunch Disrupt 2026で見つけましょう。3日間で250以上の戦術的セッション、強力なイントロダクション、そして市場を定義するイノベーションが用意されています。今すぐ登録して最大400ドルお得に。
最大300ドルまたは30%お得:TechCrunch Founder Summitへ
1,000人以上の創業者と投資家が、TechCrunch Founder Summit 2026に集結。成長、実行、現実のスケールにフォーカスした終日プログラムです。業界を形作ってきた創業者や投資家から学びましょう。同じような成長段階にある仲間とつながりましょう。すぐに適用できる戦術を持ち帰れます
オファーは3月13日で終了。
ミストラルの立ち位置は、そのオープンソースとカスタマイズ性が、競合他社よりも企業が同社の音声モデルを導入しやすくするというものです。自分の望む形に調整できるためです。