Gemini 3.1 Flash TTS

Simon Willison's Blog / 2026/4/16

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Googleは、新しいプロンプト指向のテキスト読み上げ(TTS)モデル「Gemini 3.1 Flash TTS」をリリースしました。Gemini API経由で、モデルID `gemini-3.1-flash-tts-preview` を使用して利用できます。
  • このモデルは音声出力のみを生成するよう設計されています(つまり、他のメディア形式ではなく音声ファイルを出力します)。
  • Googleのプロンプト作成ドキュメントでは、音声の特徴、スタイル、ダイナミクス、ペース、アクセントを制御するために、非常に構造化された「オーディオプロファイル」とディレクターノート風の指示を重視しています。
  • 提供されている例のプロンプトは、TTSシステムからエネルギッシュで、特定の聞こえ方になるような読み上げを引き出すために、詳細なパフォーマンス/トーンのガイダンスをどのように用いるかを示しています。
提供: Teleport — Teleport Beamsで数秒でエージェントをインフラに接続。内蔵されたID。秘密ゼロ。 早期アクセスを受け取る

2026年4月15日 - リンクブログ

Gemini 3.1 Flash TTS。Googleは本日、プロンプトで指示できる新しいテキスト読み上げ(TTS)モデルであるGemini 3.1 Flash TTSをリリースしました。

標準のGemini APIを通じて、モデルIDとしてgemini-3.1-flash-tts-previewを使って提示されますが、出力できるのは音声ファイルのみです。

プロンプトガイドは、少なくとも驚く内容です。以下は、音声の短い文をほんの数文生成するための彼らの例のプロンプトです:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
月明かりに照らされたロンドンのスカイラインを見下ろす、ガラス張りのスタジオで時刻は22:00。だが中は、目を焼くほど眩しい。赤い「ON AIR」タリーライトがギラついている。Jazは座っていない。立っている。分厚いミキシングデスクの前で、分厚いバッキングトラックのリズムに合わせて、かかとを浮かせてつま先で跳ねるように動いている。両手は巨大なミキシングコンソールのフェーダーを飛び回る。これは、国中を起こすために設計された、カオスで、カフェインに満ちたコックピットだ。

### DIRECTOR'S NOTES
スタイル:
* 「Vocal Smile(ボーカルスマイル)」:音声の中ににやりとした笑みが聞こえなければならない。柔らかい歯茎は常に上げたままにして、明るく、日当たりのよい、そしてはっきりと招き込むようなトーンを保つこと。
* ダイナミクス:叫びはなしで、高い飛び出し感。興奮の言葉(例:「Beauuutiful morning」)では、パンチの効いた子音と引き延ばされた母音を使う。

テンポ:エネルギッシュな速さで話す。速い音楽に置いていかれない。"跳ねる"ようなリズムで話す。流れるようなトランジションで高速に。間がない、空白がない。

アクセント:Jazはロンドンのブリクストン出身

### SAMPLE CONTEXT
Jazは、Top 40のラジオ、ハイオクタンのイベント告知、あるいは、キャッチーなエスティアリー(イースト・ロンドン〜)アクセントと11/10の感染力あるエネルギーが必要なあらゆる台本における業界標準。

#### TRANSCRIPT
[ワクワクしながら] そうだよ、スタジオはでっかい盛り上がりだ!あなたは今ど真ん中にいる、そしてロンドンはまさに今、完全に大爆発中。もしチューブで立ち往生してたり、ただそこに座って仕事してるふりをしてるだけなら……やめて。マジで、分かってるよ、見てる。
[叫びながら] これをもっと上げて!プロジェクトのロードマップが3、2……よし、行こう!

この例のプロンプトで私が得た結果は以下です:

お使いのブラウザは、オーディオ要素をサポートしていません。

次にそれを「Jazはニューカッスル出身」で、「…魅力的なニューカッスルのアクセントが必要」として修正したところ、こうなりました:

お使いのブラウザは、オーディオ要素をサポートしていません。

ついでにエクセター、デボンも:

お使いのブラウザは、オーディオ要素をサポートしていません。

Gemini 3.1 Proでも「雰囲気コード(vibe code)」としてこのUIを作って試してみました

"Gemini 3.1 Flash TTS" のWebアプリケーション画面のスクリーンショット。上部にマスクされたパスワードのある「API Key」フィールドがあります。その下に「TTS Mode」のセクションがあり、ドロップダウンは「Multi-Speaker (Conversation)」に設定されています。「Speaker 1 Name」は「Joe」で、「Speaker 1 Voice」は「Puck (Upbeat)」に設定されています。「Speaker 2 Name」は「Jane」で、「Speaker 2 Voice」は「Kore (Firm)」に設定されています。「Script / Prompt」には「Tip: 上で定義したExact Speaker Namesを使って、テキストを台本としてフォーマットしてください。」というヒントが表示されています。台本のテキストエリアには「TTS the following conversation between Joe and Jane:

Joe: How's it going today Jane?
Jane: [yawn] Not too bad, how about you?」が入っています。下に青い「Generate Audio」ボタンがあります。最下部にはオーディオプレイヤー(00:00 / 00:06 を表示)と「Download WAV」リンクを伴う「Success!」メッセージがあります。

2026年4月15日 2026年4月15日 の17:13に投稿

これはSimon Willisonによるリンク投稿で、2026年4月15日に公開されました。

google 404 text-to-speech 17 tools 57 ai 1962 prompt-engineering 183 generative-ai 1741 llms 1708 gemini 184 llm-release 190 vibe-coding 84

月次ブリーフィング

$10/月で私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

少ないものを送るためにお金を払ってください!

スポンサーになる & 購読する