Gemini 3.1 Flash TTS:表現力豊かなAI音声の次世代
全体の要約
Gemini 3.1 Flash TTSが登場しました。AIの音声品質と制御性が向上します。これまで以上に、音声タグを使って70以上の言語で、話し方のスタイルやテンポを調整できます。Google AI Studio、Vertex AI、Google Vidsで試してみてください。また、誤情報を防ぐために、すべての音声にはSynthIDによるウォーターマークが付与されていることも確認できます。
要約はGoogle AIによって生成されました。生成AIは実験段階です。箇条書きの要点
- 「Gemini 3.1 Flash TTS」は、制御性、表現力、品質が向上した新しいAI音声モデルです。
- このモデルは音声品質が改善されており、従来のバージョンよりも自然に聞こえるようになります。
- 音声タグにより、自然言語コマンドを使って話し方のスタイル、テンポ、伝達方法を制御できます。
- 開発者はGoogle AI Studioを使って音声を微調整し、設定をエクスポートして一貫した利用を実現できます。
- Gemini 3.1 Flash TTSは70以上の言語に対応し、AI生成音声であることを識別するためにSynthIDのウォーターマーキングを使用します。
基本的な解説
Gemini 3.1 Flash TTSは、コンピュータの音声をよりリアルに聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使うことで、人々はAIの話し方を変更できます。このAIは70以上の言語で話すことができ、音声に隠れたウォーターマークも追加します。これにより、それがAIによって生成されたものであり、実在の人物によるものではないことを人々が把握できるようになります。
要約はGoogle AIによって生成されました。生成AIは実験段階です。他のスタイルも見る:
- 全体の要約
- 箇条書きの要点
- 基本的な解説
お使いのブラウザは音声要素をサポートしていません。
本日、Gemini 3.1 Flash TTSを発表します。これは、制御性・表現力・品質を向上させた最新のテキスト読み上げ(TTS)モデルです。開発者、企業、そして日常のユーザーが、次世代のAI音声アプリケーションを構築できるよう後押しします。
本日より、3.1 Flash TTSを順次提供開始します:
- Gemini APIとGoogle AI Studioによるプレビュー(開発者向け)
- Vertex AI上でのプレビュー(企業向け)
- Google Vidsを通じて(Workspaceユーザー向け)
音声品質と制御性の向上
Gemini 3.1 Flash TTSの音声品質を全体的に改善し、これまでで最も自然で表現力の高いモデルになりました。数千件のブラインドな人間の嗜好を捉えるベンチマークであるArtificial Analysis TTSリーダーボードでは、3.1 Flash TTSが印象的なEloスコア1,211を達成しています。
Artificial Analysisはまた、Gemini 3.1 Flash TTSを、高品質な音声生成と低コストの理想的なバランスを持つ「最も魅力的なクアドラント」に位置付けています。さらに、このモデルはネイティブのマルチスピーカー対話、70以上の言語への対応、そして自然言語によるきめ細かなクリエイティブ制御によって、より際立っています。
より表現力豊かな音声生成のための新しいオーディオタグ
3.1 Flash TTSでは、音声のスタイル、テンポ、話し方を制御できるオーディオタグも導入します。これは、直感的に操作できる方法です。自然言語のコマンドをテキスト入力に直接埋め込むことで、より高い粒度でAI音声の出力を導くことができます。
これらの音声タグはもちろん、Google AI Studio の開発者エクスペリエンスをさらに改善する他のアップデートと一緒に、設定可能なコントロールで試し始められます。これにより、開発者は「監督席」に座るような感覚で制作できます:
- シーン指示: 環境を定義し、具体的なセリフの指示を与えて、舞台を整えます。このワールドビルディング(世界観の設計)の文脈により、キャラクターは複数ターンにわたって自然に「そのキャラクターらしく」振る舞い、互いに反応できます。
- 話者レベルの細かさ: 固有のオーディオプロファイルを使ってキャラクターを割り当て、さらにディレクターズノートでテンポ、トーン、アクセントを切り替えます。インラインタグを使うことで、話者はこれらの高レベル設定から、文中の途中で表現を変えることに切り替えられます。
- シームレスな書き出し: パフォーマンスが完成したら、これらの正確なパラメータを Gemini API のコードとして書き出し、さまざまなプロジェクトやプラットフォームで一貫した、聞き分けられる声を確保できます。
これらの新しい設定により、開発者は特定のシナリオに対して精度を高め、印象に残るキャラクターと没入感のある音声体験を作り出せます。
Google AI Studio Playground で高品位な音声生成を始めましょう。
グローバル規模に対応
Gemini 3.1 Flash TTS は、高品位な音声と、70 以上の言語にわたるより正確な制御を実現します。これらの中核となる最適化により、主要市場に高度なスタイル、テンポ、アクセントの制御がもたらされます。結果として、グローバル規模のユーザー向けに、ローカライズされた表現豊かな音声体験を作り出す手助けになります。
先行して開発者やエンタープライズのテスターが、すでに 3.1 Flash TTS のインパクトを実感し始めています。その優れた制御性と表現力が注目されています。音声タグが、単純なテキストを高品位なボーカルのようなパフォーマンスへと変える、新しいレベルの創造的な精度を提供してくれることを、私たちに伝えてくれました。
SynthIDでウォーターマーク
Gemini 3.1 Flash TTSで生成されるすべての音声には、SynthIDでウォーターマークが付与されています。この知覚できないウォーターマークは、音声出力に直接織り込まれており、AI生成コンテンツを確実に検出できるようにすることで、誤情報の防止に役立ちます。安全性と責任に関するアプローチの詳細については、モデルカードをご覧ください。
受信箱でGoogleのさらに多くのストーリーをお楽しみください。 受信箱でGoogleのストーリーをさらにお届けします。
お客様の情報は Googleのプライバシーポリシー に従って使用されます。
Subscribe完了です。もう1ステップだけです。
登録を確認するために、受信箱を確認してください。
すでにニュースレターに登録されています。
別の メールアドレス でも登録できます。 .




