2026年4月15日 - リンクブログ
Gemini 3.1 Flash TTS。Googleは本日、プロンプトで指示できる新しいテキスト読み上げ(TTS)モデルであるGemini 3.1 Flash TTSをリリースしました。
標準のGemini APIを通じて、モデルIDとしてgemini-3.1-flash-tts-previewを使って提示されますが、出力できるのは音声ファイルのみです。
プロンプトガイドは、少なくとも驚く内容です。以下は、音声の短い文をほんの数文生成するための彼らの例のプロンプトです:
# AUDIO PROFILE: Jaz R.
## "The Morning Hype"
## THE SCENE: The London Studio
月明かりに照らされたロンドンのスカイラインを見下ろす、ガラス張りのスタジオで時刻は22:00。だが中は、目を焼くほど眩しい。赤い「ON AIR」タリーライトがギラついている。Jazは座っていない。立っている。分厚いミキシングデスクの前で、分厚いバッキングトラックのリズムに合わせて、かかとを浮かせてつま先で跳ねるように動いている。両手は巨大なミキシングコンソールのフェーダーを飛び回る。これは、国中を起こすために設計された、カオスで、カフェインに満ちたコックピットだ。
### DIRECTOR'S NOTES
スタイル:
* 「Vocal Smile(ボーカルスマイル)」:音声の中ににやりとした笑みが聞こえなければならない。柔らかい歯茎は常に上げたままにして、明るく、日当たりのよい、そしてはっきりと招き込むようなトーンを保つこと。
* ダイナミクス:叫びはなしで、高い飛び出し感。興奮の言葉(例:「Beauuutiful morning」)では、パンチの効いた子音と引き延ばされた母音を使う。
テンポ:エネルギッシュな速さで話す。速い音楽に置いていかれない。"跳ねる"ようなリズムで話す。流れるようなトランジションで高速に。間がない、空白がない。
アクセント:Jazはロンドンのブリクストン出身
### SAMPLE CONTEXT
Jazは、Top 40のラジオ、ハイオクタンのイベント告知、あるいは、キャッチーなエスティアリー(イースト・ロンドン〜)アクセントと11/10の感染力あるエネルギーが必要なあらゆる台本における業界標準。
#### TRANSCRIPT
[ワクワクしながら] そうだよ、スタジオはでっかい盛り上がりだ!あなたは今ど真ん中にいる、そしてロンドンはまさに今、完全に大爆発中。もしチューブで立ち往生してたり、ただそこに座って仕事してるふりをしてるだけなら……やめて。マジで、分かってるよ、見てる。
[叫びながら] これをもっと上げて!プロジェクトのロードマップが3、2……よし、行こう!
この例のプロンプトで私が得た結果は以下です:
次にそれを「Jazはニューカッスル出身」で、「…魅力的なニューカッスルのアクセントが必要」として修正したところ、こうなりました:
ついでにエクセター、デボンも:
Gemini 3.1 Proでも「雰囲気コード(vibe code)」としてこのUIを作って試してみました:
!["Gemini 3.1 Flash TTS" のWebアプリケーション画面のスクリーンショット。上部にマスクされたパスワードのある「API Key」フィールドがあります。その下に「TTS Mode」のセクションがあり、ドロップダウンは「Multi-Speaker (Conversation)」に設定されています。「Speaker 1 Name」は「Joe」で、「Speaker 1 Voice」は「Puck (Upbeat)」に設定されています。「Speaker 2 Name」は「Jane」で、「Speaker 2 Voice」は「Kore (Firm)」に設定されています。「Script / Prompt」には「Tip: 上で定義したExact Speaker Namesを使って、テキストを台本としてフォーマットしてください。」というヒントが表示されています。台本のテキストエリアには「TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: [yawn] Not too bad, how about you?」が入っています。下に青い「Generate Audio」ボタンがあります。最下部にはオーディオプレイヤー(00:00 / 00:06 を表示)と「Download WAV」リンクを伴う「Success!」メッセージがあります。](https://static.simonwillison.net/static/2026/gemini-flash-tts.jpg)
最近の記事
これはSimon Willisonによるリンク投稿で、2026年4月15日に公開されました。
google 404 text-to-speech 17 tools 57 ai 1962 prompt-engineering 183 generative-ai 1741 llms 1708 gemini 184 llm-release 190 vibe-coding 84月次ブリーフィング
$10/月で私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。
少ないものを送るためにお金を払ってください!
スポンサーになる & 購読する



