Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

Google Blog / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Googleが「Gemini 3.1 Flash TTS」を発表し、より表現力のあるAI音声合成を目指す次世代の音声モデルとして位置付けています。
「Flash」名の通り、音声生成の応答性や実用性を高める方向性が示唆され、リアルタイム寄りのユースケースに適した設計を狙っていると考えられます。
生成される音声の“表情（expressiveness）”を強化することに焦点が当てられており、単なる読み上げから感情やニュアンスを含む発話へ進化させる狙いが読み取れます。
音声AIの進化により、アプリ内音声体験（ナレーション、会話UI、コンテンツ制作など）の品質向上と開発ワークフローの見直しが促される可能性があります。

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

2026年4月15日

x.com

Facebook

メール

リンクをコピー

最新の音声モデルでは、きめ細かい音声タグを導入しました。これにより、表現力のある音声生成に向けてAI音声を正確に誘導できます。

Vilobh Meshram

シニア・プロダクトマネージャー

Max Gubin

Geminiチームを代表してのプリンシパル・リサーチ・エンジニア

AIが生成した要約を読む

全体の要約

Gemini 3.1 Flash TTSが登場しました。AI音声の品質と制御性が向上し、より扱いやすくなりました。さらに、70以上の言語で音声タグを使って、声のスタイルや話すテンポを調整できるようになりました。Google AI Studio、Vertex AI、Google Vidsでぜひお試しください。また、誤情報を防ぐために、すべての音声にはSynthIDでウォーターマークが付与されています。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

箇条書き

「Gemini 3.1 Flash TTS」は、制御性、表現力、品質がより優れた新しいAI音声モデルです。
このモデルは音声の品質が向上しており、これまでのバージョンよりも自然に聞こえるようになりました。
音声タグにより、自然言語のコマンドを使って、声のスタイル、テンポ、伝え方を制御できます。
開発者はGoogle AI Studioを使って音声を微調整し、設定を書き出して、一貫して同じ用途で利用できます。
Gemini 3.1 Flash TTSは70以上の言語に対応しており、AI生成音声であることを識別するためにSynthIDのウォーターマーキングを使用します。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

基本的な説明

Gemini 3.1 Flash TTSは、コンピュータの音声をより現実的に聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使うことで、AIの話し方を変えられます。このAIは70以上の言語で話せ、音声に隠れたウォーターマークも追加します。これにより、それがAIによって生成されたものであり、実在の人物の発話ではないことを人々が把握できるようになります。

要約はGoogle AIによって生成されました。生成AIは実験段階です。

他のスタイルを探す：

全体の要約
箇条書き
基本的な説明

x.com

Facebook

メール

リンクをコピー

「3.1 Flash TTS」というテキストの横にある Gemini ロゴ。色とりどりの点があちこちに

お使いのブラウザはオーディオ要素をサポートしていません。

記事を聞く

このコンテンツは Google AI によって生成されています。生成 AI は実験段階です

[[duration]] 分

Voice Speed

Voice

Speed 0.75X 1X 1.5X 2X

本日、表現力、制御性、そして品質を向上させた最新のテキスト読み上げ（text-to-speech）モデルである「Gemini 3.1 Flash TTS」を発表します。これにより、開発者、企業、そして日常のユーザーが、次世代のAI音声アプリケーションを構築できるようになります。

本日より、3.1 Flash TTS の提供を順次開始します：

Gemini API および Google AI Studio を通じたプレビューとして、開発者向け
Vertex AI 上でのプレビューとして、企業向け
Google Vids を通じた Workspace ユーザー向け

音声品質と制御性の向上

私たちは Gemini 3.1 Flash TTS の音声品質全体を改善し、これまでで最も自然で、表現力の高いモデルを実現しました。数千の「ブラインド（評価者が条件を知らない）人間の好み」を捉えるベンチマークである Artificial Analysis TTS リーダーボードにおいて、3.1 Flash TTS は見事な Elo スコア 1,211 を達成しました。

a gif showing artificial analysis text to speech arena quality elo

Artificial Analysis は、Gemini 3.1 Flash TTS を、品質の高い音声生成と低コストを理想的に両立したため、同社の「最も魅力的なクワドラント」にも位置付けています。このモデルはさらに、ネイティブのマルチ話者による対話、70 以上の言語への対応、そして自然言語によるきめ細かな創造的コントロールによって際立っています。

より表現力のある音声生成のための新しいオーディオタグ

3.1 Flash TTS は、オーディオタグも導入します。これは、声のスタイル、テンポ、そして話し方（デリバリー）を直感的に制御する方法です。自然言語の指示をテキスト入力に直接埋め込むことで、より高い粒度で AI 音声の出力を導くことができます。

返却形式: {"translated": "翻訳されたHTML"}

これらの audio タグと、Google AI Studio の開発者体験向けの他のアップデートを、設定可能なコントロールとともに試してみることができます。これにより、開発者は「監督の椅子」に座ることができます。

シーン指示： 環境を定義し、具体的なセリフの指示を与えることで、舞台を設定します。このワールド構築の文脈により、登場人物は複数ターンにわたって「そのキャラクターらしく」いられ、互いに自然に反応できるようになります。
話者レベルのきめ細かさ： 一意の Audio Profiles を使ってキャラクターをキャスティングし、そのうえで Director’s Notes を指定してテンポ、トーン、アクセントを切り替えます。インラインタグを使うことで、話者はこれらの高度な設定から、文中の途中で表現を変える方向へ切り替えられます。
シームレスなエクスポート： パフォーマンスが完成したら、これらの正確なパラメータを Gemini API のコードとしてエクスポートできるため、さまざまなプロジェクトやプラットフォーム間で、一貫して認識できる声を確保できます。

これらの新しい設定により、開発者は特定のシナリオに対する精度を高め、印象に残るキャラクターや没入感のある音声体験を作り出せます。

Google AI Studio Playground で高精細な音声生成を始めましょう。

グローバルな規模に対応

Gemini 3.1 Flash TTS は、高精細な音声と、70 以上の言語にわたるより正確な制御を提供します。これらの中核となる最適化により、主要市場で高度なスタイル、テンポ、アクセントの制御が可能になり、グローバルな規模で、ローカライズされた表現力豊かな音声体験をユーザーに届けるのを支援します。

初期の開発者およびエンタープライズのテスターはすでに 3.1 Flash TTS の効果を実感しており、その優れた制御性と表現力が際立っていると述べています。audio タグによって、単純なテキストが高精細なボーカルのパフォーマンスへと変わる、新しいレベルの創造的な精度が得られることを、私たちに教えてくれました。

SynthIDで透かしを埋め込み

Gemini 3.1 Flash TTS が生成するすべての音声には、SynthIDによる透かしが埋め込まれています。この目に見えない透かしは、音声出力に直接織り込まれており、AI生成コンテンツを確実に検出できるようにすることで、誤情報の拡散を防ぐのに役立ちます。安全性と責任に関する取り組みの詳細については、モデルカードをご覧ください。

受信トレイでGoogleの最新ストーリーをもっと受け取ってください。受信トレイでGoogleのストーリーをもっと受け取ってください。

メールアドレス

送信された情報は Googleのプライバシーポリシーに従って使用されます。

登録する

完了です。もう1ステップだけ。

登録を確認するには、受信トレイを確認してください。

すでにニュースレターに登録されています。

別のメールアドレスでも登録できます。

掲載先:

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/16Dailyインサイトを見る →

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

要点

Gemini 3.1 Flash TTS：表現力豊かなAI音声の次世代

全体の要約

箇条書き