Google、音声モデル「Gemini 3.1 Flash Live」公開　感情に合わせて自然な対話を実現

ITmedia AI+ / 3/27/2026

📰 NewsSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

共有:

Key Points

Googleがリアルタイム対話機能強化の音声モデル「Gemini 3.1 Flash Live」を発表し、Gemini 3 Proベースのネイティブ・マルチモーダル推論で音声/画像/動画/テキストを扱えるようにした
最大128Kトークンのコンテキストウィンドウを備え、遅延と処理精度の改善により、より自然で滑らかな発話・応答を目指している
声のピッチや話速など音響ニュアンスの理解が向上し、ユーザーの感情表現に合わせて動的に応答調整できる点を強調している
利用は一般向けに「Search Live」「Gemini Live」へ拡大され、開発者はGemini Live API（プレビュー）、企業は「Gemini Enterprise for Customer Experience」経由で提供される
Scale AIのベンチマークAudio MultiChallengeで、thinking機能オン時に36.1%を記録したとされ、複雑指示・長期文脈・自己一貫性・実世界の会話運用を含む能力を評価している

　米Googleは3月26日（現地時間）、「Gemini」のリアルタイム対話機能を強化する「Gemini 3.1 Flash Live」を発表した。「Gemini 3 Pro」をベースとしたネイティブなマルチモーダル推論モデルだ。最大128K（12万8000）トークンのコンテキストウィンドウを備え、音声、画像、動画、テキストを処理して自然で人間らしい音声やテキストを出力する。

（画像：Google）

　一般ユーザーは、日本を含む200以上の国と地域に拡大された「Search Live」（日本では「検索Live」）や「Gemini Live」を通じて利用できる。また、開発者向けには「Google AI Studio」の「Gemini Live API」（プレビュー版）として、企業向けには「Gemini Enterprise for Customer Experience」として提供されており、「Geminiアプリ」や「NotebookLM」など複数のプラットフォームでも利用可能だ。

Gemini Live

　従来のモデルとの大きな違いは、処理精度が向上し、遅延が大幅に低減したことで、より自然で滑らかなやり取りが可能になった点という。以前の「2.5 Flash Native Audio」と比較して、声の高さ（ピッチ）や話すペースなどの音響的なニュアンスを理解する能力が向上しており、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整できるようになった。

　さらに、Gemini Liveでの応答がより高速化し、会話の文脈をこれまでの2倍長く維持できるようになったという。例えば、長時間のブレインストーミングで思考の途切れを防ぎたい時や、ノイズの多い環境下で複雑なタスクを処理する音声エージェントを構築・利用する時、また、旅行の予約のように複数の手順や条件が絡む複雑な機能呼び出しを行う場面などで非常に役立つとしている。

　米Scale AIが実施した音声モデルの会話能力を評価するベンチマーク「Audio MultiChallenge」では、「thinking」機能をオンにした状態で36.1％という、競合より高いスコアを記録した。このテストは、複雑な指示に従う能力や長期的な文脈を踏まえた推論能力に加え、自己一貫性の維持、さらには現実世界の音声に特有の途切れやためらい、自然な発話の訂正といった状況下で長時間の会話を管理する能力を評価するものだ。

Audio MultiChallenge結果（画像：Google）

　安全性については、GoogleのAI原則と生成AIポリシーに準拠しており、児童の搾取、ヘイトスピーチ、危険なコンテンツの生成を防ぐため、専門チームによる厳格な評価や安全性のレビューを経て開発したとしている。また、AIによる誤情報の拡散を防止するため、Gemini 3.1 Flash Liveによって生成されたすべての音声には、人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みを整えたと説明している。

Google、Geminiへの「乗り換え」支援機能を発表　ChatGPT等の設定や履歴を継承可能に
Googleは、ChatGPTやClaudeなどの他社AIサービスからGeminiへ移行しやすくする新機能を発表した。設定や好みを引き継ぐ「メモリー」と、過去の「チャット履歴」のインポートが可能になる。先行するAnthropicの同様の動きに追随し、ユーザーの乗り換え障壁を下げる狙いだ。
Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表
Googleは、LLMのメモリ消費量を6分の1に削減する新技術「TurboQuant」を発表した。PolarQuantとQJLを組み合わせ、精度を維持したままKVキャッシュを3ビットまで圧縮する。NVIDIAのH100での計算速度は最大8倍に向上。Gemini等の大規模モデルやベクトル検索の劇的な高速化が期待される。
Google、Gemini活用で翻訳・会話能力を強化　イヤホンでのリアルタイム翻訳も改善
Googleは、Geminiの機能を活用した複数の翻訳・音声関連新機能を発表した。「Gemini 2.5 Flash Native Audio」を導入し、Geminiライブの会話能力を向上。Google翻訳にはGeminiの最先端翻訳機能が導入され、慣用句などの翻訳精度が向上した。また、イヤホンでのリアルタイム音声間翻訳機能や、Duolingoのような言語学習ツールの拡張も行われた。
Googleアプリでの「AI Mode」、音声会話式検索の提供開始（米国で）
Googleが米国で、Googleアプリの新機能「Search Live」の提供を開始した。これは対話型のAI検索「AI Mode」の一部で、音声で質問すると音声で回答が得られる。画面には情報源のリンクが表示される。
Googleの会話AI「Gemini Live」日本語対応
Googleが、AIと音声会話できる「Gemini Live」の日本語対応を発表した。今後数週間かけて提供するという。

GDPR and AI Training Data: What You Need to Know Before Training on Personal Data

Dev.to

We built a 9-item checklist that catches LLM coding agent failures before execution starts

Dev.to

Edge-to-Cloud Swarm Coordination for heritage language revitalization programs with embodied agent feedback loops

Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dev.to

Sector HQ Daily AI Intelligence - March 27, 2026

Dev.to

Google、音声モデル「Gemini 3.1 Flash Live」公開　感情に合わせて自然な対話を実現

Key Points

関連記事

関連リンク

Related Articles

GDPR and AI Training Data: What You Need to Know Before Training on Personal Data

We built a 9-item checklist that catches LLM coding agent failures before execution starts

Edge-to-Cloud Swarm Coordination for heritage language revitalization programs with embodied agent feedback loops

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Sector HQ Daily AI Intelligence - March 27, 2026

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer