Google、Gemini 3.1 Flash Liveをリリース:低遅延のオーディオ/ビデオとツール利用に対応する、リアルタイムのマルチモーダル音声モデル(AIエージェント向け)

MarkTechPost / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Googleは、Google AI StudioのGemini Live APIを通じて開発者プレビューとしてGemini 3.1 Flash Liveをリリースし、低遅延でより自然かつ信頼性の高いリアルタイム音声対話を目指しています。
  • 同モデルは、レスポンシブなマルチモーダル・ストリーミング向けに最適化されており、これまででGoogleが提供する最高品質の音声・スピーチモデルとして位置づけられています。
  • Gemini 3.1 Flash Liveはマルチモーダル・ストリームをネイティブに処理し、音声入力と映像入力の双方に対してリアルタイムで理解を可能にします。
  • 今回のリリースでは、AIエージェント向けのツール利用のサポートも強調されており、リアルタイムで行動できるエージェント型アプリケーションの構築の土台を提供します。
  • 開発者はAI Studio APIのワークフロー経由でこのモデルにアクセスできることから、音声およびエージェント主導の体験をすぐにプロトタイプ化できる導線が示唆されています。

Googleは、Google AI StudioにおいてGemini Live API経由で開発者向けに、Gemini 3.1 Flash Liveをプレビューとして公開しました。このモデルは、低遅延で、より自然で、かつより信頼性の高いリアルタイム音声インタラクションを対象としており、Googleの「これまでで最も高品質な音声およびスピーチモデル」として提供されます。マルチモーダル・ストリームをネイティブに処理することで、このリリースは[…]

この記事はGoogle Releases Gemini 3.1 Flash Live: A Real-Time Multimodal Voice Model for Low-Latency Audio, Video, and Tool Use for AI Agentsとして初めてMarkTechPostに掲載されました。