Gemini 3.1 Flash TTS:表現力豊かなAI音声の次世代
全体の要約
Gemini 3.1 Flash TTSが登場しました。AI音声の品質と制御性が向上し、より扱いやすくなりました。さらに、70以上の言語で音声タグを使って、声のスタイルや話すテンポを調整できるようになりました。Google AI Studio、Vertex AI、Google Vidsでぜひお試しください。また、誤情報を防ぐために、すべての音声にはSynthIDでウォーターマークが付与されています。
要約はGoogle AIによって生成されました。生成AIは実験段階です。箇条書き
- 「Gemini 3.1 Flash TTS」は、制御性、表現力、品質がより優れた新しいAI音声モデルです。
- このモデルは音声の品質が向上しており、これまでのバージョンよりも自然に聞こえるようになりました。
- 音声タグにより、自然言語のコマンドを使って、声のスタイル、テンポ、伝え方を制御できます。
- 開発者はGoogle AI Studioを使って音声を微調整し、設定を書き出して、一貫して同じ用途で利用できます。
- Gemini 3.1 Flash TTSは70以上の言語に対応しており、AI生成音声であることを識別するためにSynthIDのウォーターマーキングを使用します。
基本的な説明
Gemini 3.1 Flash TTSは、コンピュータの音声をより現実的に聞こえるようにする新しいAIです。テキスト内の特別なコマンドを使うことで、AIの話し方を変えられます。このAIは70以上の言語で話せ、音声に隠れたウォーターマークも追加します。これにより、それがAIによって生成されたものであり、実在の人物の発話ではないことを人々が把握できるようになります。
要約はGoogle AIによって生成されました。生成AIは実験段階です。他のスタイルを探す:
- 全体の要約
- 箇条書き
- 基本的な説明
お使いのブラウザはオーディオ要素をサポートしていません。
本日、表現力、制御性、そして品質を向上させた最新のテキスト読み上げ(text-to-speech)モデルである「Gemini 3.1 Flash TTS」を発表します。これにより、開発者、企業、そして日常のユーザーが、次世代のAI音声アプリケーションを構築できるようになります。
本日より、3.1 Flash TTS の提供を順次開始します:
- Gemini API および Google AI Studio を通じたプレビューとして、開発者向け
- Vertex AI 上でのプレビューとして、企業向け
- Google Vids を通じた Workspace ユーザー向け
音声品質と制御性の向上
私たちは Gemini 3.1 Flash TTS の音声品質全体を改善し、これまでで最も自然で、表現力の高いモデルを実現しました。数千の「ブラインド(評価者が条件を知らない)人間の好み」を捉えるベンチマークである Artificial Analysis TTS リーダーボード において、3.1 Flash TTS は見事な Elo スコア 1,211 を達成しました。
Artificial Analysis は、Gemini 3.1 Flash TTS を、品質の高い音声生成と低コストを理想的に両立したため、同社の「最も魅力的なクワドラント」にも位置付けています。このモデルはさらに、ネイティブのマルチ話者による対話、70 以上の言語への対応、そして自然言語によるきめ細かな創造的コントロールによって際立っています。
より表現力のある音声生成のための新しいオーディオタグ
3.1 Flash TTS は、オーディオタグも導入します。これは、声のスタイル、テンポ、そして話し方(デリバリー)を直感的に制御する方法です。自然言語の指示をテキスト入力に直接埋め込むことで、より高い粒度で AI 音声の出力を導くことができます。
これらの audio タグと、Google AI Studio の開発者体験向けの他のアップデートを、設定可能なコントロールとともに試してみることができます。これにより、開発者は「監督の椅子」に座ることができます。
- シーン指示: 環境を定義し、具体的なセリフの指示を与えることで、舞台を設定します。このワールド構築の文脈により、登場人物は複数ターンにわたって「そのキャラクターらしく」いられ、互いに自然に反応できるようになります。
- 話者レベルのきめ細かさ: 一意の Audio Profiles を使ってキャラクターをキャスティングし、そのうえで Director’s Notes を指定してテンポ、トーン、アクセントを切り替えます。インラインタグ を使うことで、話者はこれらの高度な設定から、文中の途中で表現を変える方向へ切り替えられます。
- シームレスなエクスポート: パフォーマンスが完成したら、これらの正確なパラメータを Gemini API のコードとしてエクスポートできるため、さまざまなプロジェクトやプラットフォーム間で、一貫して認識できる声を確保できます。
これらの新しい設定により、開発者は特定のシナリオに対する精度を高め、印象に残るキャラクターや没入感のある音声体験を作り出せます。
Google AI Studio Playground で高精細な音声生成を始めましょう。
グローバルな規模に対応
Gemini 3.1 Flash TTS は、高精細な音声と、70 以上の言語にわたるより正確な制御を提供します。これらの中核となる最適化により、主要市場で高度なスタイル、テンポ、アクセントの制御が可能になり、グローバルな規模で、ローカライズされた表現力豊かな音声体験をユーザーに届けるのを支援します。
初期の開発者およびエンタープライズのテスターはすでに 3.1 Flash TTS の効果を実感しており、その優れた制御性と表現力が際立っていると述べています。audio タグによって、単純なテキストが高精細なボーカルのパフォーマンスへと変わる、新しいレベルの創造的な精度が得られることを、私たちに教えてくれました。
SynthIDで透かしを埋め込み
Gemini 3.1 Flash TTS が生成するすべての音声には、SynthIDによる透かしが埋め込まれています。この目に見えない透かしは、音声出力に直接織り込まれており、AI生成コンテンツを確実に検出できるようにすることで、誤情報の拡散を防ぐのに役立ちます。安全性と責任に関する取り組みの詳細については、モデルカードをご覧ください。
受信トレイでGoogleの最新ストーリーをもっと受け取ってください。 受信トレイでGoogleのストーリーをもっと受け取ってください。
送信された情報は Googleのプライバシーポリシー に従って使用されます。
登録する完了です。もう1ステップだけ。
登録を確認するには、受信トレイを確認してください。
すでにニュースレターに登録されています。
別の メールアドレス でも登録できます。




