VoxtralResearchVoxtral TTSについて:高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • VoxtralResearchVoxtralは、音声エージェントのために臨場感のある音声を生成することを目的とした、高速で最前線クラスのオープンウェイトのテキスト・トゥ・スピーチ(TTS)モデルとして紹介される。
  • 記事では「instantly adaptable(即座に適応可能)」な振る舞いを強調しており、モデルを新しい声や用途のシナリオに対して素早くカスタマイズまたは条件付けできることを示唆している。
  • Voxtralは、低遅延と自然な出力品質が重要となる音声エージェントのパイプラインにおける有力な選択肢として位置づけられている。
  • 幅広いビジネス上の影響や政策面の論点よりも、モデルの能力と、リアルタイムの音声エージェント体験への適用可能性に焦点が当てられている。

Voxtral

Text-to-Speech

Marie - ニュートラル
ようこそこの新しいエピソードへ。
Oliver - エキサイト
こんにちは。お電話いただきありがとうございます。どのようにお手伝いできるでしょうか?
Nick - neutral
喜んでお知らせします私たち新しい製品登場します

Voxtral

Text-to-Speech

ようこそこの新しいエピソードへ。
喜んでお知らせします私たち新しい製品登場します
こんにちは、お電話ありがとうございます。ご用件をお伺いできますどのようにお手伝いしましょうか?
Marie - ニュートラル
Nick - ニュートラル
Oliver - ワクワク

Voxtralについて

記事を聞く

本日、Voxtral TTSをリリースします。これは、マルチリンガルな音声生成における最先端の性能を備えた、当社初のテキスト読み上げ(text-to-speech)モデルです。モデルは4Bパラメータと軽量で、Voxtralを活用したエージェントを、自然で信頼性が高く、そしてスケールしても費用対効果の高いものにします。

ハイライト。

  1. 9つの主要言語で、現実的で感情表現豊かな話し方を実現し、多様な方言にも対応。

  2. 初回のオーディオ再生までの待ち時間が非常に短い。

  3. 新しい話者の声に簡単に適応可能。

  4. こちらでテストできます: Mistral Studio

  5. エンタープライズ品質のテキスト読み上げで、重要な音声エージェントのワークフローを支えます。

自然な音声生成は、モデルが単にテキストを読み上げるだけでなく、それを正確に解釈できるかどうかにかかっています。ニュートラル、ハッピー、皮肉(sarcastic)などの文脈理解が、聞き手にとってその生成が正確に感じられるのか、それとも機械的に感じられるのかを左右します。当社のモデルは、文脈理解と話者モデリングの両方に優れています。つまり、特定の人物が自然に話す様子を捉えることができるのです。従来の「読み上げ」だけにとどまらず、自然な間(ポーズ)、リズム、イントネーション、そして感情表現の機微まで含めて話者のパーソナリティを捉えることで、声の適応をより深く実現します。コンパクトなサイズ、低コスト、低レイテンシーに加えて、適応も簡単なVoxtral TTSは、音声AIのスタックを自社で持ちたいと考えるエンタープライズに向けて、音声の完全なコントロールとカスタマイズを提供します。

オーディオは新しいUXです。会話や理解のための、音声でしか見つからない新しいインタラクションを作りましょう。今すぐAI Studioで、アメリカ英語、イギリス英語、フランス語の方言に対応したMistral Voicesを使って始めてください。

聞いて判断してみてください:違いは分かりますか?

当社のチームは、複数の方言を含めて何十もの言語を話します。文化的なニュアンスの重要性を理解しており、私たち自身の反映となるモデルを構築しました。音声生成は、自然に近いリズムや感情、さらにユーモアの使い方を通じて信頼を築きます。だからこそ、声のエミュレーションにおいては、信憑性と感情表現の豊かさに重点を置きました。

MargaretMargaretSanchitSanchitAngeleAngeleGustavoGustavoKhyathiKhyathiNickNickYassirYassirPatrickPatrick
オリジナルの声
Margaret

Margaret

モデル挙動アーキテクト

英語(米国)

エミュレーション
プロンプト

わあ、もう!夏が待ちきれないよ。ここはきっとすごく暑くなるだろうし。リドで泳いで、チェリーパイを作るのが楽しみで仕方ない。

最先端のパフォーマンス。

語の誤り率(word-error-rate)や音声品質スコアといった自動指標は、多言語のテキスト読み上げ(text-to-speech)システムの「話し方の自然さ」を測定することができません。話し方が自然であることには、非常に繊細な要素があり、文化の違いや一般的な話し方のパターンに対する深い理解が必要です。したがって、母語話者による比較の人手評価が重要です。

音声エージェントにとって、レイテンシと品質は常にトレードオフの関係にあります。人手による評価では、Voxtral TTSがElevenLabs Flash v2.5よりも優れた自然さを達成している一方で、Time-to-First-Audio(TTFA)は同程度を維持しています。Voxtralはまた、ElevenLabs v3の品質と同等の水準で動作し、より生き生きとしたインタラクションのためのエモーション・ステアリングをうまくサポートします。

Voxtral TTS Winrate (1)

Voxtral TTSとElevenLabs v2.5 Flashを、ゼロショットのカスタム音声コンテキストで比較する人手評価を実施しました。9つの対応言語それぞれについて、ネイティブ方言の中で認知しやすい2つの音声を使用し、3名のアノテータが、自然さ、アクセントの忠実性、元の参照音声との音響的類似性について、各ペアごとにサイドバイサイドの嗜好テストを行いました。このゼロショットな多言語カスタム音声環境において、Voxtral TTSはv2.5 Flashとの差をさらに広げ、あらゆる音声へのVoxtral TTSの即時なカスタマイズ性を際立たせています。

ネイティブの話し声で。

大規模な音声データセットで学習されたVoxtral TTSは、グローバルな用途を見据えて構築されています。9言語(英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語)で最先端の性能をサポートします。

このモデルは、参照をわずか3秒程度にしてもカスタム音声へ適応するように学習されており、単に声だけでなく、参照に表現されたのと同様の微妙なアクセント、語尾変化(イントネーションの揺れ)、イントネーション、さらには発話のぎこちなさ(ディスフルーエンシー)といったニュアンスも捉えられるようになっています。APIではいくつかのプリセット音声オプションを提供していますが、社内の音声ライブラリに拡張してユースケースに合わせることは簡単です。言語やアクセントにローカライズし、中立的にもより感情的にも、カジュアルにもフォーマルにもできます。また、より自然で会話的にも、よりロボット的にも調整可能です。

さらに、このモデルは明示的にそれ用に学習されていないにもかかわらず、ゼロショットのクロスリンガルな音声適応も示します。たとえば、このモデルはフランス語の音声プロンプトと英語のテキストから、英語の発話を生成できます。生成された発話は自然に聞こえつつ、提示された音声プロンプトのアクセントを取り込みます(この例では、生成された発話は自然なフランス訛りの英語になっています)。そのため、本モデルはカスケード型の音声から音声への翻訳システムを構築するのに役立ちます。

スピーカーをクリックまたは接続して、プロンプトブロックでカスケード型の音声からテキストへの翻訳を有効にします。
Paul英語(米国)
Marieフランス語
Oliver英語(UK)

始める前に、いくつかの詳細を確認させてください。お名前(フルネーム)と生年月日を教えていただけますか?

英語フランス語スペイン語ドイツ語
Voxtral TTS
Paul英語(US)
Marieフランス語
Oliver英語(英国)
プロンプト

始める前に、いくつかの詳細を確認する必要があります。お名前(フルネーム)と生年月日を確認していただけますか?

英語フランス語スペイン語ドイツ語
生成された音声
Voxtral TTS
Enterキーまたはスペースキーを押してノードを選択します。その後、矢印キーを使ってノードを任意の場所へ移動できます。Deleteキーを押して削除し、Escapeキーでキャンセルします。
Enterキーまたはスペースキーを押してエッジを選択します。その後、Deleteキーを押して削除するか、Escapeキーでキャンセルできます。

低遅延ストリーミングのために構築。

音声エージェントのアプリケーションではレイテンシが極めて重要です。Voxtral TTSは、10秒の典型的な入力音声サンプルと500文字に対して、モデルレイテンシ70msを実現し、リアルタイム係数(RTF)は≈9.7xです。このモデルはネイティブに最大2分間の音声を生成でき、また当社のAPIは、インタリーブ(割り込み)を賢く行うことで、任意に長い生成にも対応します。

Voxtral TTSのアーキテクチャ。

このモデルは、transformerベースの自己回帰(autoregressive)なフローマッチング(flow-matching)モデルであり、 Ministral 3Bの上に構築されています。以下のコンポーネントで構成されています:

  • 3.4Bパラメータのtransformerデコーダ基盤

  • 390Mフローマッチングの音響transformer

  • 300Mニューラル音声コーデック(対称型エンコーダ-デコーダ)

このモデルは、音声プロンプト(5〜25秒)と、対応9言語のテキストプロンプトを受け取ります。各音声フレームごとに、transformer基盤がセマンティックトークンを予測し、その後フローマッチングのtransformerが16回の関数評価(NFEs)を実行して、音響潜在表現を生成します。

当社は自社開発のコーデックを作りました。このコーデックは、セマンティックVQ(8192語彙)と音響FSQ(36次元・21レベル)の潜在表現を用いて、因果的に音声を処理し、12.5Hzのフレームレートでそれらを生成します。

Audio Infographic

エンタープライズの音声ワークフローを支える。


Voxtral TTSは、音声インテリジェンスに対する“ループを閉じ”、エンタープライズの音声パイプラインに、人間の検証に通る出力レイヤーを提供します。完全なスピーチ・ツー・スピーチには Voxtral Transcribe と併用して動作するほか、既存のスピーチ・ツー・テキストおよびLLMスタックに統合することもでき、多言語対応にも対応しています。

カスタマーサポート金融サービス製造業および産業オペレーション公共サービスおよび行政コンプライアンスとリスクサプライチェーンとロジスティクス自動車および車載システムSales & MarketingReal-Time Translation

Customer Support

自然で、ブランドに合った話し方で、複数のチャネルにまたがる問い合わせを振り分け、解決する音声エージェントです。

Voxtral TTS を既存のコンタクトセンターの通話システムに組み込み、自動音声による応答を実現します。出力は、既存の業務フローに統合できる形で提供されます。

お問い合わせいただきありがとうございます。3月22日発生した予期しない請求についてご不安内容承知いたしました。では口座明細確認しますね。ああ、はい。これはご依頼いただいたサブスクリプションアップグレード伴う一時的保留であるよう見えます。保留キャンセルするか、プラン調整しましょうか?お客様とのお電話大切ですので、解決するまでこちらで電話つなぎ続けます。
Jane

Mistral Studio でモデルをテスト実行します。

Mistral Studio のプレイグラウンドで Voxtral TTS を直接試してみてください。Mistral の音声を1つ選ぶか、自分の音声を録音してください。

Voxtral TTS の使い方を始めましょう。

Voxtral TTS は現在、API 経由で 1k 文字あたり $0.016 で利用可能です。

Mistral Studio または Le Chat で今すぐお試しください。 

複数の参照音声を含むモデルは、Hugging Face で CC BY NC 4.0 ライセンスとしてオープンウェイトで提供されています。

モデルの ドキュメント を探索してください。 

詳細を学ぶために、近日開催の ウェビナー に登録してください! 

採用中です!

私たちは AI のためのボイス層を構築しています。そして、もしあなたがこの種の課題に取り組みたいのであれば、ぜひご連絡ください