Google、音声モデル「Gemini 3.1 Flash Live」公開 感情に合わせて自然な対話を実現

ITmedia AI+ / 3/27/2026

📰 NewsSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

Key Points

  • Googleがリアルタイム対話機能強化の音声モデル「Gemini 3.1 Flash Live」を発表し、Gemini 3 Proベースのネイティブ・マルチモーダル推論で音声/画像/動画/テキストを扱えるようにした
  • 最大128Kトークンのコンテキストウィンドウを備え、遅延と処理精度の改善により、より自然で滑らかな発話・応答を目指している
  • 声のピッチや話速など音響ニュアンスの理解が向上し、ユーザーの感情表現に合わせて動的に応答調整できる点を強調している
  • 利用は一般向けに「Search Live」「Gemini Live」へ拡大され、開発者はGemini Live API(プレビュー)、企業は「Gemini Enterprise for Customer Experience」経由で提供される
  • Scale AIのベンチマークAudio MultiChallengeで、thinking機能オン時に36.1%を記録したとされ、複雑指示・長期文脈・自己一貫性・実世界の会話運用を含む能力を評価している

 米Googleは3月26日(現地時間)、「Gemini」のリアルタイム対話機能を強化する「Gemini 3.1 Flash Live」を発表した。「Gemini 3 Pro」をベースとしたネイティブなマルチモーダル推論モデルだ。最大128K(12万8000)トークンのコンテキストウィンドウを備え、音声、画像、動画、テキストを処理して自然で人間らしい音声やテキストを出力する。

flash live 1 (画像:Google)

 一般ユーザーは、日本を含む200以上の国と地域に拡大された「Search Live」(日本では「検索Live」)や「Gemini Live」を通じて利用できる。また、開発者向けには「Google AI Studio」の「Gemini Live API」(プレビュー版)として、企業向けには「Gemini Enterprise for Customer Experience」として提供されており、「Geminiアプリ」や「NotebookLM」など複数のプラットフォームでも利用可能だ。

 gemini live Gemini Live

 従来のモデルとの大きな違いは、処理精度が向上し、遅延が大幅に低減したことで、より自然で滑らかなやり取りが可能になった点という。以前の「2.5 Flash Native Audio」と比較して、声の高さ(ピッチ)や話すペースなどの音響的なニュアンスを理解する能力が向上しており、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整できるようになった。

 さらに、Gemini Liveでの応答がより高速化し、会話の文脈をこれまでの2倍長く維持できるようになったという。例えば、長時間のブレインストーミングで思考の途切れを防ぎたい時や、ノイズの多い環境下で複雑なタスクを処理する音声エージェントを構築・利用する時、また、旅行の予約のように複数の手順や条件が絡む複雑な機能呼び出しを行う場面などで非常に役立つとしている。


 米Scale AIが実施した音声モデルの会話能力を評価するベンチマーク「Audio MultiChallenge」では、「thinking」機能をオンにした状態で36.1%という、競合より高いスコアを記録した。このテストは、複雑な指示に従う能力や長期的な文脈を踏まえた推論能力に加え、自己一貫性の維持、さらには現実世界の音声に特有の途切れやためらい、自然な発話の訂正といった状況下で長時間の会話を管理する能力を評価するものだ。

 multichallenge Audio MultiChallenge結果(画像:Google)

 安全性については、GoogleのAI原則と生成AIポリシーに準拠しており、児童の搾取、ヘイトスピーチ、危険なコンテンツの生成を防ぐため、専門チームによる厳格な評価や安全性のレビューを経て開発したとしている。また、AIによる誤情報の拡散を防止するため、Gemini 3.1 Flash Liveによって生成されたすべての音声には、人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みを整えたと説明している。

関連記事

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia AI+メールマガジン」の登録が必要です

Google、音声モデル「Gemini 3.1 Flash Live」公開 感情に合わせて自然な対話を実現 | AI Navigate