Gemini 3.1 Flash TTS

Simon Willison's Blog / 2026/4/16

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Googleは、Gemini API経由で提供される新しいプロンプト対応テキスト読み上げ(TTS)モデル「Gemini 3.1 Flash TTS」をリリースしました。
  • このモデルはID `gemini-3.1-flash-tts-preview` でアクセスでき、現時点では音声ファイルの出力生成のみをサポートしています。
  • 声やスタイルを制御するためのGoogleのプロンプト手法は、非常に構造化された「オーディオプロファイル」や脚本のようなディレクター向けノートによって示されており、注目に値します。
  • 例のプロンプトでは、パーソナ、訛り、ペース、ダイナミクス、提供(デリバリー)スタイルに関する詳細な制御に加え、パフォーマンス用の文字起こしタグが示されています。
提供: Teleport — Teleport Beamsで、数秒でエージェントをあなたのインフラに接続します。標準搭載の認証。秘密情報ゼロ。 早期アクセスを取得

2026年4月15日 - リンクブログ

Gemini 3.1 Flash TTS。Googleは本日、Gemini 3.1 Flash TTSをリリースしました。プロンプトを使って制御できる新しいテキスト読み上げ(TTS)モデルです。

標準のGemini APIで、モデルIDとしてgemini-3.1-flash-tts-previewを指定して提供されていますが、出力できるのは音声ファイルのみです。

プロンプト作成ガイドは、少なくとも驚くような内容です。以下に、音声をほんの数文生成するための彼らの例のプロンプトを示します:

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
ガラス張りのスタジオで、月明かりのロンドンのスカイラインを見下ろしているのは午後10時だが、内側はとにかく眩しいくらいに明るい。赤い「ON AIR」タリーライトがギラギラと燃えている。Jazは座っていない。立っている。分厚いミキシングデスクの前で、巨大なミキシングデスクのフェーダーを飛ぶように操作している。足のかかとではなくつま先側(踵を上げた状態)で、その分厚いバッキングトラックのリズムに合わせて跳ねている。これは、ある国全体を目覚めさせるために作られた、カオスで、カフェインに満ちた操縦席だ。

### DIRECTOR'S NOTES
スタイル:
* 「Vocal Smile(ボーカルの笑顔)」:音声から笑顔が伝わる必要があります。ソフトパレットは常に持ち上げて、トーンを明るく、日なたのようにし、そして明確に誘うようにしてください。
* ダイナミクス:叫ばずに高い投射感を。興奮の言葉(例:「Beauuutiful morning」)では、パンチの効いた子音と引き延ばされた母音。

テンポ:エネルギッシュなテンポで話し、テンポの速い音楽についていく。"跳ねる"ような間合いで話す。流れるようなトランジションで高速に届ける——無音も、間(ギャップ)もなし。

アクセント:Jazはロンドンのブリクストン出身

### SAMPLE CONTEXT
Jazは、トップ40ラジオの業界標準であり、高オクタン価のイベント・プロモ、あるいは、陽気なエスティアリー(イースト・アングリア寄りの発音のような)訛りと、11/10の伝染するようなエネルギーが必要なあらゆる台本のための存在です。

#### TRANSCRIPT
[わくわくしながら] うおお、スタジオの空気が最高だ!いまロンドンで、ガチで盛り上がってるよ。もしチューブで立ち往生してるなら、あるいは、働いてるふりをしてずっと座ってるだけなら……やめて。マジで、分かってるよ、君のこと。
[叫びながら] これをもっと上げて!プロジェクトのロードマップが3、2…ってところで降りてくる。いくぞ!

この例のプロンプトを使って私が得られたのは以下です:

あなたのブラウザは音声要素をサポートしていません。

次にこれを「Jaz is from Newcastle」に変更し、さらに「... requires a charismatic Newcastle accent(……魅力的なニューカッスル訛りが必要)」にして、この結果になりました:

あなたのブラウザは音声要素をサポートしていません。

ちなみにエクセター(デヴォン)でも試してみました:

あなたのブラウザは音声要素をサポートしていません。

私はGemini 3.1 Proの雰囲気で、これを試すためのこのUIを作って遊びました:

"Gemini 3.1 Flash TTS"という名前のWebアプリケーションのインターフェースのスクリーンショット。上部に、マスクされたパスワードの付いた"API Key"フィールドがあります。下には"TTS Mode"セクションがあり、ドロップダウンが"Multi-Speaker (Conversation)"に設定されています。"Speaker 1 Name"は"Joe"で、"Speaker 1 Voice"は"Puck (Upbeat)"に設定されています。"Speaker 2 Name"は"Jane"で、"Speaker 2 Voice"は"Kore (Firm)"に設定されています。"Script / Prompt"の下に、"Tip: Format your text as a script using the Exact Speaker Names defined above."というヒントが表示されています。スクリプトのテキストエリアには、

TTS the following conversation between Joe and Jane:

Joe: How's it going today Jane?
Jane: [yawn] Not too bad, how about you?

が入っています。その下に青い"Generate Audio"ボタンがあります。最下部には、00:00 / 00:06を示すオーディオプレーヤーと、"Download WAV"リンクを伴う"Success!"メッセージが表示されます。

2026年4月15日 4月15日 の17:13に投稿

これはSimon Willisonによるリンク投稿で、2026年4月15日に投稿されました。

google 404 テキスト読み上げ 17 ツール 57 ai 1962 プロンプトエンジニアリング 183 generative-ai 1741 llms 1708 gemini 184 llm-release 190 vibe-coding 84

月次ブリーフィング

$10/月で私をスポンサーし、今月の最も重要なLLMの動向を厳選したメール・ダイジェストを受け取ってください。

返却形式: {"translated": "翻訳されたHTML"}

あなたにもっと少ないものを送るためにお金を払ってください!

スポンサーになって購読する