Amazon Pollyの双方向ストリーミングを紹介：会話型AI向けのリアルタイム音声合成

Amazon AWS AI Blog / 2026/3/27

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

Amazon Pollyは双方向ストリーミングAPIを導入し、テキストを送信しながら合成したオーディオを同時に受け取ることで、リアルタイムTTSを実現できるようにしました。
このAPIは、テキストが段階的に生成される（例：LLMの出力）会話型AIワークロードを想定して設計されており、応答全体が準備できる前に音声の再生を開始する必要があるケースに適しています。
このストリーミング手法は、音声および会話型ユーザー体験におけるレイテンシを低減し、応答性を高めることを目的としています。
入力／出力を段階的に可能にすることで、会話システムにより駆動されるインタラクティブな音声インターフェースを構築する開発者にとって、統合パターンが効率化されます。

本日、Amazon Polly の新しい双方向ストリーミング API を発表できることを嬉しく思います。この API により、テキストを送信しながら同時にオーディオを受信できる、リアルタイムなテキスト読み上げ（TTS）合成をより効率的に行えるようになります。この新しい API は、LLM（大規模言語モデル）の応答のように、テキストやオーディオを逐次生成する会話型 AI アプリケーション向けに設計されています。そこでは、ユーザーが合成を開始する必要がある一方で、利用可能になるのは全文ではないためです。

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

日経XTECH

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Amazon Pollyの双方向ストリーミングを紹介：会話型AI向けのリアルタイム音声合成

要点

関連記事

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer