Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

Google DeepMind Blog / 2026/4/16

📰 ニュースTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Googleは「Gemini 3.1 Flash TTS」を導入し、より表現力のあるAI音声の出力に焦点を当てた次世代のテキスト読み上げ（TTS）システムとして位置づけています。
この記事では、このモデルを従来のTTS機能からの改善として描写し、音声の自然さと表現力を重視している点を強調しています。
これは、Geminiモデルのリリース全体の文脈や、より高度なマルチモーダルAIシステムに向けた継続的な研究の流れの中で提示されています。
公開日（2026年4月15日）とタイトルから、本件は実用的な音声生成ユースケースを対象としたプロダクト／モデル機能のアップデートであることが示唆されています。

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

2026年4月15日

x.com

Facebook

メール

リンクをコピー

最新の音声モデルでは、きめ細かな音声タグが導入されており、表現力豊かな音声生成に向けてAIの発話を的確に制御できます。

Vilobh Meshram

シニアプロダクトマネージャー

Max Gubin

Geminiチームを代表してのプリンシパル・リサーチ・エンジニア

返却形式: {"translated": "翻訳されたHTML"}

AIが生成した要約を読む

全体の要約

Gemini 3.1 Flash TTSが登場しました。AIの音声品質と制御性が向上します。これまで以上に、音声タグを使って70以上の言語で、話し方のスタイルやテンポを調整できます。Google AI Studio、Vertex AI、Google Vidsで試してみてください。また、誤情報を防ぐために、すべての音声にはSynthIDによるウォーターマークが付与されていることも確認できます。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

箇条書きの要点

「Gemini 3.1 Flash TTS」は、制御性、表現力、品質が向上した新しいAI音声モデルです。
このモデルは音声品質が改善されており、従来のバージョンよりも自然に聞こえるようになります。
音声タグにより、自然言語コマンドを使って話し方のスタイル、テンポ、伝達方法を制御できます。
開発者はGoogle AI Studioを使って音声を微調整し、設定をエクスポートして一貫した利用を実現できます。
Gemini 3.1 Flash TTSは70以上の言語に対応し、AI生成音声であることを識別するためにSynthIDのウォーターマーキングを使用します。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

基本的な解説

Gemini 3.1 Flash TTSは、コンピュータの音声をよりリアルに聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使うことで、人々はAIの話し方を変更できます。このAIは70以上の言語で話すことができ、音声に隠れたウォーターマークも追加します。これにより、それがAIによって生成されたものであり、実在の人物によるものではないことを人々が把握できるようになります。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

他のスタイルも見る：

全体の要約
箇条書きの要点
基本的な解説

x.com

Facebook

メール

リンクをコピー

Geminiロゴが「3.1 Flash TTS」というテキストの横にあり、色付きのドットが全体に散らばっている

お使いのブラウザは音声要素をサポートしていません。

記事を聞く

このコンテンツはGoogle AIによって生成されています。生成AIは実験段階です

[[duration]]分

声速度

声

速度 0.75X 1X 1.5X 2X

本日、Gemini 3.1 Flash TTSを発表します。これは、制御性・表現力・品質を向上させた最新のテキスト読み上げ（TTS）モデルです。開発者、企業、そして日常のユーザーが、次世代のAI音声アプリケーションを構築できるよう後押しします。

本日より、3.1 Flash TTSを順次提供開始します：

Gemini APIとGoogle AI Studioによるプレビュー（開発者向け）
Vertex AI上でのプレビュー（企業向け）
Google Vidsを通じて（Workspaceユーザー向け）

音声品質と制御性の向上

Gemini 3.1 Flash TTSの音声品質を全体的に改善し、これまでで最も自然で表現力の高いモデルになりました。数千件のブラインドな人間の嗜好を捉えるベンチマークであるArtificial Analysis TTSリーダーボードでは、3.1 Flash TTSが印象的なEloスコア1,211を達成しています。

a gif showing artificial analysis text to speech arena quality elo

Artificial Analysisはまた、Gemini 3.1 Flash TTSを、高品質な音声生成と低コストの理想的なバランスを持つ「最も魅力的なクアドラント」に位置付けています。さらに、このモデルはネイティブのマルチスピーカー対話、70以上の言語への対応、そして自然言語によるきめ細かなクリエイティブ制御によって、より際立っています。

より表現力豊かな音声生成のための新しいオーディオタグ

3.1 Flash TTSでは、音声のスタイル、テンポ、話し方を制御できるオーディオタグも導入します。これは、直感的に操作できる方法です。自然言語のコマンドをテキスト入力に直接埋め込むことで、より高い粒度でAI音声の出力を導くことができます。

これらの音声タグはもちろん、Google AI Studio の開発者エクスペリエンスをさらに改善する他のアップデートと一緒に、設定可能なコントロールで試し始められます。これにより、開発者は「監督席」に座るような感覚で制作できます：

シーン指示： 環境を定義し、具体的なセリフの指示を与えて、舞台を整えます。このワールドビルディング（世界観の設計）の文脈により、キャラクターは複数ターンにわたって自然に「そのキャラクターらしく」振る舞い、互いに反応できます。
話者レベルの細かさ： 固有のオーディオプロファイルを使ってキャラクターを割り当て、さらにディレクターズノートでテンポ、トーン、アクセントを切り替えます。インラインタグを使うことで、話者はこれらの高レベル設定から、文中の途中で表現を変えることに切り替えられます。
シームレスな書き出し： パフォーマンスが完成したら、これらの正確なパラメータを Gemini API のコードとして書き出し、さまざまなプロジェクトやプラットフォームで一貫した、聞き分けられる声を確保できます。

これらの新しい設定により、開発者は特定のシナリオに対して精度を高め、印象に残るキャラクターと没入感のある音声体験を作り出せます。

Google AI Studio Playground で高品位な音声生成を始めましょう。

グローバル規模に対応

Gemini 3.1 Flash TTS は、高品位な音声と、70 以上の言語にわたるより正確な制御を実現します。これらの中核となる最適化により、主要市場に高度なスタイル、テンポ、アクセントの制御がもたらされます。結果として、グローバル規模のユーザー向けに、ローカライズされた表現豊かな音声体験を作り出す手助けになります。

先行して開発者やエンタープライズのテスターが、すでに 3.1 Flash TTS のインパクトを実感し始めています。その優れた制御性と表現力が注目されています。音声タグが、単純なテキストを高品位なボーカルのようなパフォーマンスへと変える、新しいレベルの創造的な精度を提供してくれることを、私たちに伝えてくれました。

返却形式: {"translated": "翻訳されたHTML"}

SynthIDでウォーターマーク

Gemini 3.1 Flash TTSで生成されるすべての音声には、SynthIDでウォーターマークが付与されています。この知覚できないウォーターマークは、音声出力に直接織り込まれており、AI生成コンテンツを確実に検出できるようにすることで、誤情報の防止に役立ちます。安全性と責任に関するアプローチの詳細については、モデルカードをご覧ください。

返却形式: {"translated": "翻訳されたHTML"}

受信箱でGoogleのさらに多くのストーリーをお楽しみください。受信箱でGoogleのストーリーをさらにお届けします。

Email address

お客様の情報は Googleのプライバシーポリシーに従って使用されます。

完了です。もう1ステップだけです。

登録を確認するために、受信箱を確認してください。

すでにニュースレターに登録されています。

別のメールアドレスでも登録できます。 .

掲載内容:

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

「悪魔のツール」Claude Mythos、防御側に恩恵をもたらす盾ともなるか

日経XTECH

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

要点

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

全体の要約

箇条書きの要点