Amazon Pollyの双方向ストリーミングを紹介:会話型AI向けのリアルタイム音声合成
Amazon AWS AI Blog / 2026/3/27
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Amazon Pollyは双方向ストリーミングAPIを導入し、テキストを送信しながら合成したオーディオを同時に受け取ることで、リアルタイムTTSを実現できるようにしました。
- このAPIは、テキストが段階的に生成される(例:LLMの出力)会話型AIワークロードを想定して設計されており、応答全体が準備できる前に音声の再生を開始する必要があるケースに適しています。
- このストリーミング手法は、音声および会話型ユーザー体験におけるレイテンシを低減し、応答性を高めることを目的としています。
- 入力/出力を段階的に可能にすることで、会話システムにより駆動されるインタラクティブな音声インターフェースを構築する開発者にとって、統合パターンが効率化されます。
本日、Amazon Polly の新しい双方向ストリーミング API を発表できることを嬉しく思います。この API により、テキストを送信しながら同時にオーディオを受信できる、リアルタイムなテキスト読み上げ(TTS)合成をより効率的に行えるようになります。この新しい API は、LLM(大規模言語モデル)の応答のように、テキストやオーディオを逐次生成する会話型 AI アプリケーション向けに設計されています。そこでは、ユーザーが合成を開始する必要がある一方で、利用可能になるのは全文ではないためです。