要点

Googleは、新しいプロンプト指向のテキスト読み上げ（TTS）モデル「Gemini 3.1 Flash TTS」をリリースしました。Gemini API経由で、モデルID `gemini-3.1-flash-tts-preview` を使用して利用できます。
このモデルは音声出力のみを生成するよう設計されています（つまり、他のメディア形式ではなく音声ファイルを出力します）。
Googleのプロンプト作成ドキュメントでは、音声の特徴、スタイル、ダイナミクス、ペース、アクセントを制御するために、非常に構造化された「オーディオプロファイル」とディレクターノート風の指示を重視しています。
提供されている例のプロンプトは、TTSシステムからエネルギッシュで、特定の聞こえ方になるような読み上げを引き出すために、詳細なパフォーマンス／トーンのガイダンスをどのように用いるかを示しています。

Simon Willison’s Weblog

提供: Teleport — Teleport Beamsで数秒でエージェントをインフラに接続。内蔵されたID。秘密ゼロ。早期アクセスを受け取る

2026年4月15日 - リンクブログ

Gemini 3.1 Flash TTS。Googleは本日、プロンプトで指示できる新しいテキスト読み上げ（TTS）モデルであるGemini 3.1 Flash TTSをリリースしました。

標準のGemini APIを通じて、モデルIDとしてgemini-3.1-flash-tts-previewを使って提示されますが、出力できるのは音声ファイルのみです。

プロンプトガイドは、少なくとも驚く内容です。以下は、音声の短い文をほんの数文生成するための彼らの例のプロンプトです：

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
月明かりに照らされたロンドンのスカイラインを見下ろす、ガラス張りのスタジオで時刻は22:00。だが中は、目を焼くほど眩しい。赤い「ON AIR」タリーライトがギラついている。Jazは座っていない。立っている。分厚いミキシングデスクの前で、分厚いバッキングトラックのリズムに合わせて、かかとを浮かせてつま先で跳ねるように動いている。両手は巨大なミキシングコンソールのフェーダーを飛び回る。これは、国中を起こすために設計された、カオスで、カフェインに満ちたコックピットだ。

### DIRECTOR'S NOTES
スタイル:
* 「Vocal Smile（ボーカルスマイル）」：音声の中ににやりとした笑みが聞こえなければならない。柔らかい歯茎は常に上げたままにして、明るく、日当たりのよい、そしてはっきりと招き込むようなトーンを保つこと。
* ダイナミクス：叫びはなしで、高い飛び出し感。興奮の言葉（例：「Beauuutiful morning」）では、パンチの効いた子音と引き延ばされた母音を使う。

テンポ：エネルギッシュな速さで話す。速い音楽に置いていかれない。"跳ねる"ようなリズムで話す。流れるようなトランジションで高速に。間がない、空白がない。

アクセント：Jazはロンドンのブリクストン出身

### SAMPLE CONTEXT
Jazは、Top 40のラジオ、ハイオクタンのイベント告知、あるいは、キャッチーなエスティアリー（イースト・ロンドン〜）アクセントと11/10の感染力あるエネルギーが必要なあらゆる台本における業界標準。

#### TRANSCRIPT
[ワクワクしながら] そうだよ、スタジオはでっかい盛り上がりだ！あなたは今ど真ん中にいる、そしてロンドンはまさに今、完全に大爆発中。もしチューブで立ち往生してたり、ただそこに座って仕事してるふりをしてるだけなら……やめて。マジで、分かってるよ、見てる。
[叫びながら] これをもっと上げて！プロジェクトのロードマップが3、2……よし、行こう！

この例のプロンプトで私が得た結果は以下です：

お使いのブラウザは、オーディオ要素をサポートしていません。

次にそれを「Jazはニューカッスル出身」で、「…魅力的なニューカッスルのアクセントが必要」として修正したところ、こうなりました：

お使いのブラウザは、オーディオ要素をサポートしていません。

ついでにエクセター、デボンも：

お使いのブラウザは、オーディオ要素をサポートしていません。

Gemini 3.1 Proでも「雰囲気コード（vibe code）」としてこのUIを作って試してみました：

2026年4月15日 2026年4月15日の17:13に投稿

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Gemini 3.1 Flash TTS

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減