AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

Mistral、"Voxtral TTS"を発表：3秒の音声から任意の声をクローンできるオープンウェイトのテキスト・トゥ・ボイスモデル。9言語対応で、Elevenlabs Flash v2.5に対し68.4%の人間が好むという勝率を達成

Reddit r/LocalLLaMA / 2026/4/7

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

原文を読む →

共有:

要点

Mistralは、Voxtral TTSというオープンウェイトのテキスト・トゥ・ボイス（TTS）モデルを発表しました。このモデルは、微調整や訓練の変更なし（ゼロショット）で、わずか3秒の音声から人物の声をクローンできると主張しています。
本モデルは9言語をサポートし、例えばフランス語の音声プロンプトを使って英語の発話を生成するなど、言語をまたいだボイス・クローン（クロスリンガルな声のクローン）に対応すると報じられています。
Mistralは、ベンチマークでの好成績を報告しており、ElevenLabs Flash v2.5に対するゼロショットの多言語ボイス・クローンで、人間の嗜好勝率が68.4%に達したことを含みます。また、感情表現の豊かさと品質においてElevenLabs v3と同等の結果だとしています。
Voxtral TTSは低遅延（約70msのモデル遅延／Flash v2.5と同程度の「最初の音声までの時間」）で、3GBのRAM上でも動作できるほど効率的だと説明されており、スマートフォン／ラップトップ／エッジへの導入を狙っています。
Hugging Faceで重み（weights）を公開することで、Mistralは、ボイス・クローンやTTS市場における独自のAPIロック型アプローチへの挑戦としてVoxtral TTSを位置づけています。

Mistral、"Voxtral TTS"を発表：3秒の音声から任意の声をクローン可能なオープンウェイトのテキスト読み上げモデル。9言語対応。68.4%の人間の嗜好率でElevenlabs Flash V2.5を上回る。

ElevenLabsは、独自の重みとAPIのロックインによって塀を築きました。Mistralは、重みをHugging Faceに置いただけです。

このモデルは、声だけでなくその人自身も捉えます。アクセント、抑揚、イントネーション、ボーカルフィラー（「うん」「あー」）といった、声を合成っぽくではなく人間らしく聞かせる要素です。参照用の音声は3秒分。微調整はゼロ。ゼロショット。

主な見どころ：

→ ゼロショットの多言語ボイス・クローニングで、ElevenLabs Flash v2.5に対して68.4%の勝率
→ 対応9言語すべてで、ElevenLabs Flash v2.5を上回る
→ 感情の表現力と品質において、ElevenLabs v3と同等
→ モデルのレイテンシは70ms。高品質で、Flash v2.5と同じ「最初のオーディオまでの時間」
→ 4Bパラメータ。3GB RAMで動作。スマートフォン、ラップトップ、エッジデバイス。
→ 9言語：英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語
→ 機械を介さないクロスリンガル・ボイス・クローニング：フランス語のボイス・プロンプトから英語の発話を、ものの出来上がりで生成

公式発表へのリンク： https://mistral.ai/news/voxtral-tts

論文へのリンク： https://arxiv.org/pdf/2603.25551

モデルの重みへのリンク： https://huggingface.co/mistralai/Voxtral-4B-TTS-2603

提供者： /u/44th--Hokage
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/7Dailyインサイトを見る →

関連記事

Black Hat USA

Black Hat USA

AI Business

Black Hat Asia

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告