米Googleは3月26日(現地時間)、「Gemini」のリアルタイム対話機能を強化する「Gemini 3.1 Flash Live」を発表した。「Gemini 3 Pro」をベースとしたネイティブなマルチモーダル推論モデルだ。最大128K(12万8000)トークンのコンテキストウィンドウを備え、音声、画像、動画、テキストを処理して自然で人間らしい音声やテキストを出力する。
一般ユーザーは、日本を含む200以上の国と地域に拡大された「Search Live」(日本では「検索Live」)や「Gemini Live」を通じて利用できる。また、開発者向けには「Google AI Studio」の「Gemini Live API」(プレビュー版)として、企業向けには「Gemini Enterprise for Customer Experience」として提供されており、「Geminiアプリ」や「NotebookLM」など複数のプラットフォームでも利用可能だ。
従来のモデルとの大きな違いは、処理精度が向上し、遅延が大幅に低減したことで、より自然で滑らかなやり取りが可能になった点という。以前の「2.5 Flash Native Audio」と比較して、声の高さ(ピッチ)や話すペースなどの音響的なニュアンスを理解する能力が向上しており、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整できるようになった。
さらに、Gemini Liveでの応答がより高速化し、会話の文脈をこれまでの2倍長く維持できるようになったという。例えば、長時間のブレインストーミングで思考の途切れを防ぎたい時や、ノイズの多い環境下で複雑なタスクを処理する音声エージェントを構築・利用する時、また、旅行の予約のように複数の手順や条件が絡む複雑な機能呼び出しを行う場面などで非常に役立つとしている。
米Scale AIが実施した音声モデルの会話能力を評価するベンチマーク「Audio MultiChallenge」では、「thinking」機能をオンにした状態で36.1%という、競合より高いスコアを記録した。このテストは、複雑な指示に従う能力や長期的な文脈を踏まえた推論能力に加え、自己一貫性の維持、さらには現実世界の音声に特有の途切れやためらい、自然な発話の訂正といった状況下で長時間の会話を管理する能力を評価するものだ。
安全性については、GoogleのAI原則と生成AIポリシーに準拠しており、児童の搾取、ヘイトスピーチ、危険なコンテンツの生成を防ぐため、専門チームによる厳格な評価や安全性のレビューを経て開発したとしている。また、AIによる誤情報の拡散を防止するため、Gemini 3.1 Flash Liveによって生成されたすべての音声には、人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みを整えたと説明している。
関連記事
Google、Geminiへの「乗り換え」支援機能を発表 ChatGPT等の設定や履歴を継承可能に
Googleは、ChatGPTやClaudeなどの他社AIサービスからGeminiへ移行しやすくする新機能を発表した。設定や好みを引き継ぐ「メモリー」と、過去の「チャット履歴」のインポートが可能になる。先行するAnthropicの同様の動きに追随し、ユーザーの乗り換え障壁を下げる狙いだ。
Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表
Googleは、LLMのメモリ消費量を6分の1に削減する新技術「TurboQuant」を発表した。PolarQuantとQJLを組み合わせ、精度を維持したままKVキャッシュを3ビットまで圧縮する。NVIDIAのH100での計算速度は最大8倍に向上。Gemini等の大規模モデルやベクトル検索の劇的な高速化が期待される。
Google、Gemini活用で翻訳・会話能力を強化 イヤホンでのリアルタイム翻訳も改善
Googleは、Geminiの機能を活用した複数の翻訳・音声関連新機能を発表した。「Gemini 2.5 Flash Native Audio」を導入し、Geminiライブの会話能力を向上。Google翻訳にはGeminiの最先端翻訳機能が導入され、慣用句などの翻訳精度が向上した。また、イヤホンでのリアルタイム音声間翻訳機能や、Duolingoのような言語学習ツールの拡張も行われた。
Googleアプリでの「AI Mode」、音声会話式検索の提供開始(米国で)
Googleが米国で、Googleアプリの新機能「Search Live」の提供を開始した。これは対話型のAI検索「AI Mode」の一部で、音声で質問すると音声で回答が得られる。画面には情報源のリンクが表示される。
Googleの会話AI「Gemini Live」日本語対応
Googleが、AIと音声会話できる「Gemini Live」の日本語対応を発表した。今後数週間かけて提供するという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.
続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia AI+メールマガジン」の登録が必要です






