Mistral AIが、ElevenLabsを上回ると主張するテキスト読み上げ(TTS)モデルをリリース—さらに重み(ウェイト)を無料で提供

VentureBeat / 2026/3/26

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Mistral AIは、オープンウェイトでエンタープライズ向けのテキスト読み上げ(TTS)モデル「Voxtral TTS」をリリースしました。同社は「フロンティア品質」の結果をもたらし、音声を第三者に送らずに実行できると主張しています。
  • ElevenLabsのような独自のAPI重視の競合とは異なり、Mistralは企業に対してモデルの重みを提供しており、企業はそれをダウンロードして自社サーバーで、あるいはスマートフォン上でローカルに展開できます。
  • この動きは、競争の軸を単に生の音声品質だけでなく、顧客のコントロールとデータプライバシーに置き換えるものです。
  • 今年のローンチは、市場全体で急速に勢いが高まっている時期に重なっています。たとえばIBMとElevenLabsの協業、Google CloudによるChirp 3ボイスの拡張、そしてOpenAIによる音声合成の継続的な改善などが挙げられます。
  • Mistralは、このTTSリリースを、Forgeのカスタマイズ・プラットフォームやVoxtral Transcribeのような他の音声モデルと並行して、エンタープライズが保有するAIスタックを構築するという、より広範な戦略の一部として位置付けています。

エンタープライズ向け音声AI市場は、いわば陣取り合戦の真っ最中です。ElevenLabsIBMは、今週ちょうど、IBMのwatsonx Orchestrateプラットフォームにプレミアム音声機能を取り込むための協業を発表しました。Google Cloud はChirp 3 HDボイスの拡充を続けています。OpenAIも、自社の音声合成の反復を続けています。そして、これらすべての活動を支える市場規模は非常に大きい――音声AIは2026年に世界で220億ドルを突破し、音声AIエージェントのセグメントだけでも2034年までに475億ドルに達する見通しだと、業界推計は伝えています。

木曜の午前、Mistral AIが、根本的に異なる提案でこの競争に参入しました。パリ拠点のAIスタートアップはVoxtral TTSをリリースしました。同社が「エンタープライズ用途専用に設計された、最初のフロンティア品質のオープンウェイト(重み公開)テキスト・トゥ・スピーチモデル」と呼ぶものです。業界の主要プレイヤーのほとんどが、独自のAPIファーストのビジネスモデルを採用しているのに対し――企業は声を“レンタル”して使い、所有はしない――Mistralはモデルの完全な重みを公開し、企業にVoxtral TTSをダウンロードして自社サーバーで実行すること、あるいはスマートフォン上でさえ動かすことを促します。そして、音声フレームを一切サードパーティに送らないという選択肢を提示します。

これは、「エンタープライズ向け音声AIの未来は、最高の聞こえ方をするモデルを作った会社によって形作られるのではなく、それを最もコントロール可能にする会社によって形作られる」という賭けです。そしてそれは、まさにMistralが、138億ドルという評価――オランダの半導体メーカーASMLが昨年9月に主導した20億ドルのSeries Cラウンドを受けての水準――のもと、完全なエンタープライズ所有のAIスタックを構成する部品を積極的に組み立てているタイミングで到来しています。同社は、今月初めのNvidia GTCで発表したForgeのカスタマイズ・プラットフォームから始まり、AI Studioのプロダクション基盤、そしてほんの数週間前にリリースされたVoxtral Transcribeの音声認識(speech-to-text)モデルに至るまでを揃えています。

Voxtral TTSは、その構図を完成させる出力(テキスト・トゥ・スピーチ)のレイヤーであり、外部の提供者に頼ることなく、エンドツーエンドで動かせる音声から音声へのパイプラインをエンタープライズに提供します。

「私たちは、音声を大きな賭けであり、すべてのAIモデルとやり取りするための重要で、場合によっては唯一の未来のインターフェースだと見ています」――同社で最初に雇われた科学担当の副社長であるPierre Stockは、VentureBeatとの独占インタビューでそう語りました。「これは、顧客が求めてきたことです。」

ノートPCに収まる30億パラメータのモデルで、実時間の6倍の速さで音声を生成

Voxtral TTSの技術仕様は、業界の常識に対する意図的な逆転のように読めます。多くの最先端TTSモデルが大規模で計算資源を大量に必要とするのに対し、Mistralは、同社が比較品質の「業界標準」と呼ぶものより、モデル規模をおよそ3分の1に抑える方針で設計しました。

アーキテクチャは3つのコンポーネントで構成されています。3.4-billion(34億)パラメータのトランスフォーマー・デコーダ基盤、390-million(3.9億)パラメータのフローマッチング・アコースティック・トランスフォーマー、そしてMistralが社内で開発した300-million(3億)パラメータのニューラル・オーディオ・コーデックです。システムはMinistral 3Bの上に構築されています。これは、同社のVoxtral Transcribeモデルを支えるのと同じ事前学習済みの基盤です。Stockはこの設計上の選択を、Mistralの「効率性」と「成果物の再利用」に関する文化を象徴するものだと述べました。

実運用では、このモデルは典型的な入力に対して最初の音声までの時間(time-to-first-audio)が90ミリ秒を達成し、音声を約実時間の6倍の速度で生成します。推論用に量子化すると、必要メモリはおよそ3ギガバイトです。Stockは、どのノートPCやスマートフォンでも動作でき、さらに古いハードウェアでもなお実時間で動くことを確認しました。

「これは3Bモデルなので、基本的にどんなノートPCでも、どんなスマートフォンでも動かせます」――StockはVentureBeatにそう語りました。「推論のために量子化すると、実際にはRAMは3ギガバイトで済みます。そして超古いチップでも動きます。しかも実時間で動くんです。」

このモデルは9言語――英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語――をサポートし、参照音声がわずか5秒程度でもカスタム音声に適応できます。さらに注目すべきは、このタスクに対する明示的な学習なしで、ゼロショットのクロスリンガル(言語横断)な音声適応を示している点です。

Stockは個人的な例でこれを説明しました。自身のフランス語アクセントの入った声の10秒分をモデルに入力し、ドイツ語でプロンプトを入力すると、モデルは彼の声のように聞こえるドイツ語の音声を生成します――自然なアクセントや声の特性もそのままです。国境をまたいで事業を行う企業にとって、この機能は、話し手のアイデンティティを保持したまま行えるカスケード型の音声から音声への翻訳を可能にします。多国籍組織における顧客サポート、営業、社内コミュニケーションにおいて、明らかに有用な応用が考えられます。

音声カスタマイズでは、ヒト評価者がVoxtralをElevenLabsより約70%の時間で好む

Mistralは、どの競合を置き換えたいのかについて、はっきりと口を濁していません。同社が実施した人手評価では、Voxtral TTSはフラッグシップ・ボイスにおいてElevenLabs Flash v2.5に対してリスナー嗜好率62.8%を達成し、さらに音声カスタマイズのタスクでは嗜好率69.9%でした。加えてMistralは、感情表現の面で同社のプレミアムかつ高遅延のティアであるElevenLabs v3とパリティ(同等)であるとも主張しています。一方で、はるかに高速なFlashモデルと同程度のレイテンシを維持しています。

評価手法は、9つのサポート言語すべてに対して、比較のサイドバイサイドテストを行うものでした。各言語についてネイティブ方言の認識できる2つの声を用い、3人のアノテータが、自然さ、アクセントの忠実さ、元の参照音声との音響的な類似性について嗜好テストを実施しました。Mistralによれば、Voxtral TTSは、特にゼロショットの多言語カスタム音声設定において、ElevenLabs v2.5 Flashとの品質差を拡大させました。これは、同社がこのモデルの「即時カスタマイズ(instant customizability)」と呼ぶ点を浮き彫りにしています。

ElevenLabsは、生の音声品質におけるベンチマークとして広く認知され続けています。そのEleven v3モデルは、多数の独立したレビュアーによって、感情のニュアンスまで織り込んだAI音声のゴールドスタンダードだと評されています。しかしElevenLabsはクローズドなプラットフォームとして提供され、サブスクリプション価格が段階式で、スターターでは月額約5ドルから始まり、ビジネスプランでは月額1,300ドル超まで上がります。モデルの重みは公開されません。

Mistralの主張は、企業が品質とコントロールの間で選ばされる必要はない、ということです。そして、規模が大きくなるほどオープンウェイトモデルの経済性は劇的に有利になる、というのがその考え方です。

「私たちが強調したいのは、私たちはそれだけでなく、速くて安い、そしてオープンソースだということです」StockはVentureBeatに語りました。「何かがオープンソースで安価であれば、人々はそれを採用し、それを土台に人々がさらに開発していきます。」

彼はコストの論点を、AI予算を管理するCTOに響く形で示しました。 「AIは変革をもたらす技術ですが、コストもかかります。大企業で規模を拡大し、影響を出したいとき、そのコストは重要です。そして私たちが可能にするのは、コストを最小化しながら、精度を最大化しつつ、シームレスにスケールすることです。」

Mistralは、レンタルではなく自社で“自分たちの声”のAIを保有したいと企業が考えるはずだと考える理由

Mistralが今テキスト読み上げに取り組む理由を理解するには、同社が過去1年で構築してきた、より大きな戦略的な設計図を理解する必要があります。OpenAIAnthropicは消費者の想像力を捉えてきましたが、Mistralは、欧州で最も包括的なエンタープライズAIプラットフォームとなり得るものを、静かに組み立ててきました。そして、ますます世界規模でもそうなりつつあります。

CEOのArthur Menschは、TechCrunchによるForgeのローンチ報道によれば、同社は今年年換算で年間リカーリング収益10億ドルを上回る軌道に乗っていると述べています。Financial Timesは、Mistralの年間売上のランレートが、わずか1年の間に2,000万ドルから4億ドル超へと急増したと報じました。この成長は、100社以上の主要なエンタープライズ顧客と、揺るがない一貫した主張によって支えられてきました。企業はAIインフラを“借りる”のではなく“自社で保有する”べきだ、ということです。

Voxtral TTSは、その主張の最新の具体化であり、恐らくエンタープライズのデータとして最もセンシティブなカテゴリに適用されたものです。音声録音は、言葉だけでなく、感情・アイデンティティ・意図をも捉えます。テキストデータがそうであることは多くありませんが、音声データには法的・規制上・評判上の重みがあります。金融サービス、医療、政府といった業界――Mistralの主要な各縦領域すべて――では、音声データを第三者のAPIへ送ることは、多くのコンプライアンスチームが受け入れがたいリスクを伴います。

Stockは、データの主権の論拠を力強く示しました。「モデルがオープンウェイトなので、実際にウェイトをエンタープライズへ渡して、彼らがモデルをカスタマイズするのを支援することに、まったく問題も困難もありません」と彼は述べました。「私たちはもうウェイトを見ません。データも見ません。何も見ません。そしてあなたは完全にコントロールできます。」

このメッセージは特に、2026年を通じてアメリカのクラウド提供事業者への技術的依存に対する懸念が強まっている欧州で強く響きます。EUは現在、デジタルサービスの80%超を海外の提供事業者から調達しており、その大半はアメリカ企業です。Mistralは、この不安への答えとして自社を位置づけました――規模と技術的な能力の両面で、信頼できる代替案を提示できる唯一の欧州のフロンティアAI開発者です。

音声エージェントこそが、Mistralの“フルAIスタック”をカチッと所定の位置に収めるエンタープライズ活用例

Voxtral TTSは、Mistralが計画的に組み立ててきたパイプラインの最後のピースです。Voxtral Transcribeは音声からテキストへの変換を担います。Mistralの言語モデル――Mistral SmallからMistral Largeまで――が推論レイヤーを提供します。Forgeにより、エンタープライズは自社データを使ってこれらのモデルを自由にカスタマイズできます。AI Studioは、可観測性、ガバナンス、デプロイのためのプロダクション基盤を提供します。そしてMistral Computeは、土台となるGPUリソースを提供します。

これらが一体となることで、Stockが「エンタープライズ向けの“フルAIスタック”で、完全に制御可能かつカスタマイズ可能」と評したものが形になります。音声エージェント――顧客の話を聞き、必要なものを理解し、回答について推論し、自然な音声で応答できるAIシステム――が、これらすべてのレイヤーを結びつける活用例です。

Mistralが想定するアプリケーションは、カスタマーサポートから販売・マーケティングまで多岐にわたります。音声エージェントは、ブランドに適した話し方で問い合わせを振り分け、解決できます。販売・マーケティングでは、単一の音声がクロスリンガル(言語横断)エミュレーションによって市場をまたいで機能します。国境を越える業務のためのリアルタイム翻訳も可能です。さらに、感情をコントロールすることでトーンやパーソナリティを調整できる、インタラクティブなストーリーテリングやゲーム設計まで視野に入っています。

Stockが特に熱を帯びて語っていたのは、Voxtral TTSが2026年のエンタープライズ技術の議論を支配してきた、より広い“エージェント型AI”のトレンドにどう収まるのか、という点でした。 「私たちは、音声が自然なインターフェースになる世界を完全に作っています。とりわけ、あなたが仕事を委ねられるエージェント――あなたの拡張のようなもの――においてです」と彼は述べました。ユーザーがPCで休暇の計画を始め、通勤して、そして、音声で“最新状況を教えて”と頼むだけで、スマホでそのワークフローを引き継げるというシナリオを彼は描きました。

「それを実現するには、信頼できるモデルが必要です。さらに、実行するのがとても効率的で、とても安いモデルである必要があります。そうでないと長くは使わないからです。そして、超会話的に聞こえ、しかもいつでも割り込めるモデルが必要です」とStockは語りました。

中断可能性とリアルタイムでの応答性を重視する姿勢は、音声インターフェースがテキストと異なるという、より広い示唆を反映しています。チャットボットなら、2〜3秒待って返答してもユーザー体験は壊れません。しかし音声エージェントはそうはいきません。Voxtral TTSが達成している最初の音声までの時間90ミリ秒は、単なるベンチマーク指標ではありません。それは、自然に感じる音声対話と、ロボットのように感じる対話の境界線なのです。

Mistralのオープンウェイト方針は、Nvidiaでさえ後押ししているより広い業界の変化と整っている

Voxtral TTSをオープンウェイトでリリースするというMistralの決定は、AI業界全体で高まりつつある動きと一致しています。今月初めのNvidia GTCで、NvidiaのCEOであるJensen Huangは「プロプライエタリかオープンかは“そんなもの”ではない――プロプライエタリでありかつオープンなのだ」と宣言しました。Nvidiaは、オープンなフロンティアレベルの基盤モデルの前進を目指して活動する、モデル開発者による取り組みとしては初めてのNemotron Coalitionを発表しました。Mistralは創設メンバーとして名を連ねています。この連合から最初に生まれるプロジェクトは、Mistral AIとNvidiaによって共同開発されるベースモデルコードです。

Mistralにとってオープンウェイトは、二重の商業的な目的を果たします。採用を促進する――開発者やエンタープライズは、摩擦やコミットメントなしに試せる――一方で、同社はプラットフォームサービス、カスタマイズ提供、そしてマネージドなインフラを通じて収益化します。モデルはMistral Studioおよび同社のAPI経由でテスト可能ですが、戦略的な狙いは、従量課金のサービスではなく、保有する資産としてエンタープライズの音声パイプラインに組み込まれることです。

これは、Mistralの言語モデルで機能したプレイブックをなぞっています。メンシュは2月、CNBCに対して「AIによって、ソフトウェアを光速のスピードで開発できるようになっています」と述べ、「ITがSaaSという形で現在買っているもののうち、半分以上がAIにシフトしていく」だろうと予測しました。彼は、企業がレガシーのソフトウェアシステムをAIネイティブな代替手段で置き換えようとする中で、エンタープライズ技術全体で起きている「リプレットフォーム」について説明しました。企業が自社の都合に合わせてカスタマイズし、自社の条件で展開できるオープンウェイトの音声モデルは、その物語に自然に合致します。

Mistralは、エンドツーエンドの音声AIこそが次に目指す方向だと示す

Voxtral TTSの後に何が来るのかと尋ねられたとき、ストックは2つの方向性を挙げました。1つ目は、言語と方言のサポートを拡大し、特に文化的なニュアンスに注目することです。「パリでフランス語を話すのと、モントリオールでフランス語を話すのは同じではありません」と彼は言いました。「私たちは両方の文化を尊重したいし、モデルがそれぞれの文脈で、あらゆる文化的な細部を踏まえて機能することを望んでいます。」

2つ目は、より野心的です。テキストから単に音声を生成するだけでなく、人間の発声コミュニケーションの全スペクトルを理解する、完全なエンドツーエンドの音声モデルです。

「私たちは話す言葉によって、ある程度の意味を伝えます」とストックは述べました。「実際には、イントネーション、リズム、そしてそれをどう言うかによって、はるかに多くのことを伝えています。エンドツーエンドの音声について人々が語るとき、彼らが言いたいのはまさにそこです——たとえば、あなたが急いでいることをモデルが拾い、最も速い答えに向かうということ。モデルは、あなたが今日うれしそうだと分かって、冗談を言うでしょう。モデルはあなたに非常に適応的で、私たちが目指したいのはまさにそこです。」

自然に話し、ニュアンスを込めて聞き、感情的な知性で応答し、しかもポケットに収まるほど小さなモデルで動く——そうしたビジョンは、あらゆる主要AIラボが競って目指しているフロンティアです。現時点で、Voxtral TTSは、Mistralが積み上げていくための土台を提供するとともに、企業にとってはこれまで答える必要がなかった問いを突きつけています。つまり、低コストで、競争力のある品質を備えたまま、自分たちで音声AIスタックをまるごと所有できるのなら、なぜ他人のものを借り続けるのでしょうか?