要点

Googleは、Gemini API経由で提供される新しいプロンプト対応テキスト読み上げ（TTS）モデル「Gemini 3.1 Flash TTS」をリリースしました。
このモデルはID `gemini-3.1-flash-tts-preview` でアクセスでき、現時点では音声ファイルの出力生成のみをサポートしています。
声やスタイルを制御するためのGoogleのプロンプト手法は、非常に構造化された「オーディオプロファイル」や脚本のようなディレクター向けノートによって示されており、注目に値します。
例のプロンプトでは、パーソナ、訛り、ペース、ダイナミクス、提供（デリバリー）スタイルに関する詳細な制御に加え、パフォーマンス用の文字起こしタグが示されています。

Simon Willison’s Weblog

提供: Teleport — Teleport Beamsで、数秒でエージェントをあなたのインフラに接続します。標準搭載の認証。秘密情報ゼロ。早期アクセスを取得

2026年4月15日 - リンクブログ

Gemini 3.1 Flash TTS。Googleは本日、Gemini 3.1 Flash TTSをリリースしました。プロンプトを使って制御できる新しいテキスト読み上げ（TTS）モデルです。

標準のGemini APIで、モデルIDとしてgemini-3.1-flash-tts-previewを指定して提供されていますが、出力できるのは音声ファイルのみです。

プロンプト作成ガイドは、少なくとも驚くような内容です。以下に、音声をほんの数文生成するための彼らの例のプロンプトを示します：

# AUDIO PROFILE: Jaz R.
## "The Morning Hype"

## THE SCENE: The London Studio
ガラス張りのスタジオで、月明かりのロンドンのスカイラインを見下ろしているのは午後10時だが、内側はとにかく眩しいくらいに明るい。赤い「ON AIR」タリーライトがギラギラと燃えている。Jazは座っていない。立っている。分厚いミキシングデスクの前で、巨大なミキシングデスクのフェーダーを飛ぶように操作している。足のかかとではなくつま先側（踵を上げた状態）で、その分厚いバッキングトラックのリズムに合わせて跳ねている。これは、ある国全体を目覚めさせるために作られた、カオスで、カフェインに満ちた操縦席だ。

### DIRECTOR'S NOTES
スタイル：
* 「Vocal Smile（ボーカルの笑顔）」：音声から笑顔が伝わる必要があります。ソフトパレットは常に持ち上げて、トーンを明るく、日なたのようにし、そして明確に誘うようにしてください。
* ダイナミクス：叫ばずに高い投射感を。興奮の言葉（例：「Beauuutiful morning」）では、パンチの効いた子音と引き延ばされた母音。

テンポ：エネルギッシュなテンポで話し、テンポの速い音楽についていく。"跳ねる"ような間合いで話す。流れるようなトランジションで高速に届ける——無音も、間（ギャップ）もなし。

アクセント：Jazはロンドンのブリクストン出身

### SAMPLE CONTEXT
Jazは、トップ40ラジオの業界標準であり、高オクタン価のイベント・プロモ、あるいは、陽気なエスティアリー（イースト・アングリア寄りの発音のような）訛りと、11/10の伝染するようなエネルギーが必要なあらゆる台本のための存在です。

#### TRANSCRIPT
[わくわくしながら] うおお、スタジオの空気が最高だ！いまロンドンで、ガチで盛り上がってるよ。もしチューブで立ち往生してるなら、あるいは、働いてるふりをしてずっと座ってるだけなら……やめて。マジで、分かってるよ、君のこと。
[叫びながら] これをもっと上げて！プロジェクトのロードマップが3、2…ってところで降りてくる。いくぞ！

この例のプロンプトを使って私が得られたのは以下です：

あなたのブラウザは音声要素をサポートしていません。

次にこれを「Jaz is from Newcastle」に変更し、さらに「... requires a charismatic Newcastle accent（……魅力的なニューカッスル訛りが必要）」にして、この結果になりました：

あなたのブラウザは音声要素をサポートしていません。

ちなみにエクセター（デヴォン）でも試してみました：

あなたのブラウザは音声要素をサポートしていません。

私はGemini 3.1 Proの雰囲気で、これを試すためのこのUIを作って遊びました：

2026年4月15日 4月15日の17:13に投稿

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Gemini 3.1 Flash TTS

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

💡 この記事が使われたインサイト

関連記事

Black Hat USA

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減