Mistral、新しい音声生成のオープンソースモデルを公開

TechCrunch / 2026/3/26

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Mistralは、音声AIアシスタントやカスタマーサポート、セールスエンゲージメントなどのエンタープライズ用途を想定した、新しいオープンソースのテキスト読み上げ（TTS）モデル「Voxtral TTS」をリリースしました。
このモデルは9つの言語（英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語）をサポートしており、多言語展開に向けた位置づけです。
Mistralは、Voxtral TTSは（スマートウォッチ、スマートフォン、ラップトップなどの）小型デバイスや、その他のエッジ端末上で動作するよう設計されており、同等の提供内容と比べて大幅に低コストで実行できると述べています。
競争力のある価格設定と幅広い導入オプションを狙うことで、MistralはTTSプレイヤーのElevenLabs、Deepgram、OpenAIに直接対抗する構えを見せています。

仏AI企業ミストラル（Mistral）は木曜日、新しいオープンソースのテキスト読み上げ（text-to-speech）モデルをリリースした。同モデルは音声AIアシスタントでの利用、またはカスタマーサポートのようなエンタープライズ向けユースケースで使用できる。企業が営業や顧客エンゲージメントのための音声エージェントを構築できるこのモデルにより、ミストラルはElevenLabs、Deepgram、OpenAIといった主要プレイヤーと直接の競争関係に入る。

新モデルはVoxtral TTSと呼ばれ、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語を含む9言語に対応している。

「顧客から“音声モデルが欲しい”という要望が寄せられていました。そこで、スマートウォッチ、スマートフォン、ラップトップ、その他のエッジデバイスに収まるような小型の音声モデルを開発しました。市場にある他の何よりもコストははるかに安いのに、最先端のパフォーマンスを提供します」と、ミストラルAI（Mistral AI）の科学オペレーション担当VPであるピエール・ストック（Pierre Stock）は、電話インタビューでTechCrunchに語った。

ミストラルは、新しいモデルが5秒未満のサンプルでカスタム音声に適応できるだけでなく、微妙なアクセント、イントネーション、抑揚、発話の流れにおける不規則性といった特徴も捉えられると述べている。同モデルはMinistral 3Bをベースにしており、音声の特徴を失うことなく言語間を容易に切り替えられる。このため、吹き替えやリアルタイム翻訳といったユースケースに役立つ。ストックは、同社がモデルを「人間らしく」し、ロボットのように聞こえないようにしたいと考えていたと語った。

同社によれば、このモデルはリアルタイムでのパフォーマンスのために構築された。時間から最初の音声まで（TTFA）——入力を受け取った後にモデルが「話し始める」までのタイミング——は、500文字の10秒サンプルに対して90msだ。さらに、リアルタイム係数（RTF）は6xで、10秒のクリップをおよそ1.6秒で生成できることを意味する。

今年初め、ミストラルは「書き起こしモデルのペア」をリリースしていた。1つは大規模なバッチ処理向け、もう1つは低遅延のリアルタイム用途向けだ。新しい音声モデルによって、同社は企業向けに音声プロダクトの包括的なラインナップを提供することを狙っている可能性が高い。

「音声、テキスト、画像といった入力のマルチモーダルなストリームを処理でき、さらに出力も行えるエンドツーエンドのプラットフォームを用意する予定です。その主な利点は、エンドツーエンドのエージェントシステムで、入力または出力として音声をサポートすることで、より多くの情報を得られることです」とストックは述べた。

Techcrunch イベント

Disrupt 2026：テック・エコシステムを1つの部屋に

次のラウンド。次の採用。次のブレイク機会。 10,000人以上の創業者、投資家、テックリーダーが集うTechCrunch Disrupt 2026で見つけましょう。3日間で250以上の戦術的セッション、強力なイントロダクション、そして市場を定義するイノベーションが用意されています。今すぐ登録して最大400ドルお得に。

最大300ドルまたは30%お得：TechCrunch Founder Summitへ

1,000人以上の創業者と投資家が、TechCrunch Founder Summit 2026に集結。成長、実行、現実のスケールにフォーカスした終日プログラムです。業界を形作ってきた創業者や投資家から学びましょう。同じような成長段階にある仲間とつながりましょう。すぐに適用できる戦術を持ち帰れます

オファーは3月13日で終了。

サンフランシスコ（CA） | 2026年10月13-15日

今すぐ登録

ミストラルの立ち位置は、そのオープンソースとカスタマイズ性が、競合他社よりも企業が同社の音声モデルを導入しやすくするというものです。自分の望む形に調整できるためです。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

Mistral、新しい音声生成のオープンソースモデルを公開

要点

Disrupt 2026：テック・エコシステムを1つの部屋に

最大300ドルまたは30%お得：TechCrunch Founder Summitへ

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer