会議の言葉は、もう
字幕で読むものではない。
これまで Google Meet の翻訳は「画面の下に出る字幕」でした。それが、話している声そのものを別の言語の声へ——フレーズを言い終わる前から、数秒遅れで通訳する。Gemini 3.5 Live Translate が変えるのは、外国語の会議で「読む」か「話す」かの選択肢です。
「字幕」と「通訳」の
あいだにあった溝
Google Meet にも Google Translate にも、これまで翻訳機能はありました。けれどそれは機械翻訳ベースの字幕——相手の発言をテキストに起こし、別の言語に訳して画面に表示するものでした。読めば意味は分かる。しかし、視線は画面の下に縛られ、会話のテンポは途切れます。
3ヶ月前の Google I/O 2026 で Gemini Omni や 3.5 Flash が発表されたときも、声から声へ訳す「同時通訳」は予告的な位置づけにとどまり、本格提供の時期は未定でした。話し方のテンポや声のトーンを保ったままのリアルタイム通訳は、どのサービスも実現していなかったのです。
| これまでの字幕翻訳 | Gemini 3.5 Live Translate |
|---|---|
| 発言をテキストに起こして翻訳表示 | 声をそのまま別言語の声へ変換 |
| 画面の字幕を目で追う必要 | 耳で聞きながら会話を続けられる |
| 声のトーンや抑揚は失われる | 話者のトーン・スピード・ピッチを保持 |
| 文が終わってから訳が出る | 言い終わる前から数秒遅れで連続生成 |
言葉を、読むのをやめる。
相手の声のまま、別の言語で聞く。
言い終わるのを、待たない
従来の通訳機能は「一文が完成してから」訳し始めていました。Live Translate はストリーミング型で、話している途中から訳をつくり始めます。
話し始めを聞き取る
話者が口を開いた瞬間から、音声をフレーズ単位で取り込みます。一文が終わるのを待つ「逐次翻訳」ではなく、流れてくる音声をそのまま処理していくストリーミング型です。
声のまま別言語へ
テキストに起こして読ませるのではなく、音声から音声へ直接変換します。このとき話者のトーン・スピード・ピッチを保つため、訳された声にも元の話し方のニュアンスが残ります。
数秒遅れで追いかける
言い終わるのを待たないので、通訳は話者を数秒遅れで追いかけ続けます。会話のテンポが途切れず、対面の同時通訳に近い体感で外国語のやり取りができます。
会議にも、学習にも、
アプリにも入る
同じ Live Translate モデルが、3つの入口から使えるようになりました。
今回 Gemini 3.5 Live Translate として、70 以上の言語に対応するストリーミング型の音声→音声翻訳モデルが Google Meet・Google Translate・Gemini Live API に組み込まれました。同じモデルが、会議ツール・翻訳アプリ・開発者向け API という性格の違う3つの入口に一度に乗ったのが今回の特徴です。
会議で使う人は、相手の発言を字幕で読む代わりに通訳の声で聞けます。語学学習の文脈では、話した英語がすぐ日本語の声で返ってくる体験が Gemini アプリで試せる段階になりました。そして開発者は、Gemini Live API を経由すれば自分のアプリに同じ通訳機能を埋め込めます。
今週から、選べる
特別な準備は要りません。すでに使っているツールの中に、新しい選択肢として現れます。
海外拠点との会議で
Google Meet を使っているなら、今週から字幕ではなく音声通訳込みのミーティングが選べます。視線を画面の下に縛られず、会話に集中できます。
語学学習の相手に
話した英語がすぐ日本語の声で返ってくる体験を、Gemini アプリで試せます。発音やテンポを保ったまま訳されるので、対話練習の手応えが変わります。
自分のアプリに組み込む
Gemini Live API 経由で、通訳機能を自前のサービスへ埋め込めます。会議アプリでも学習アプリでも、同じ音声通訳をそのまま乗せられます。
「対応」と「実用」は
別の話
注意したいのは、70 言語対応はあくまでカバレッジ(対応の広さ)の話だという点です。すべての言語ペアで日英間と同じ品質が保証されるわけではありません。英語以外の言語対の精度は、使う組み合わせによって変わります。
とりわけ、契約条件や数字が動く重要な商談を音声通訳だけに委ねるのは過信です。会話のテンポを取り戻す道具として、また「読む通訳」から「聞く通訳」へ選択肢が増えた一手として捉えるのが現実的でしょう。確認が要る場面では、字幕や人による確認を併用するのが安全です。