Inworld AI、会話の話し方に適応するクローズドループ型リアルタイムTTS「TTS-2」を発表

MarkTechPost / 2026/5/6

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Inworld AIは、音声ベースのAIエージェント向けに自然さと応答性を高めることを目的とした新しいリアルタイムTTSモデル「Realtime TTS-2」を発表しました。
本モデルは文字起こし（トランスクリプト）だけに依存せず、完全な音声コンテキストに基づいて生成する点が特徴で、音声生成における重要なアーキテクチャ上の転換です。
クローズドループ方式により、ユーザーが実際に話すタイミングや話し方の揺れなどに適応して、より会話的な音声を実現します。
これによりInworld AIは、リアルタイムのエージェント用途でより適応的なボイス体験を提供できるようになります。

Inworld AIの新しいモデルは、発話内容の書き起こし（トランスクリプト）だけでなく、音声の全体コンテキストに基づいて条件付けを行います——これは、音声を前提とするAIエージェントにとって意味のあるアーキテクチャ上の転換です