ボイスエージェントの運用は高コストで、オーケストレーションもつらいものでした。モデルが会話を扱えないからではなく、コンテキストの上限(天井)が企業に対して、すべての導入にセッションのリセット、状態の圧縮、再構築レイヤーを組み込ませることを強制していたからです。OpenAIの新しい3つの音声モデルは、その負担を減らすように設計されており、エンジニアがボイスをより大規模なエージェントのスタックに組み込む方法について考えるのを変えます。
GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperは、リアルタイム音声をモデル管理スタックに、離散的なオーケストレーションのプリミティブとして統合します。つまり、会話の推論、翻訳、文字起こしを、単一の音声プロダクトにまとめ込むのではなく、専門コンポーネントに分離します。
同社はブログ記事の中で、Realtime-2は「GPT-5クラスの推論」を備えた同社初の音声モデルであり、難しい依頼を処理でき、会話を自然に流し続けられると述べました。Realtime-Translateは70以上の言語を理解し、話者のペースに合わせてそれらを13の言語へ翻訳します。またRealtime-Whisperは新しい音声認識(スピーチ・トゥ・テキスト)の文字起こしモデルです。
これら3つのアクションは、もはや単一のスタックやモデルの中に収まるものではありません。GPT-Realtime-2は技術的には文字起こしも扱えますが、OpenAIは異なるタスクを専門のモデルへ振り分けています。多言語音声にはRealtime-Translate、文字起こしにはRealtime-Whisperです。企業は、すべてを単一で万能な音声システムに通すのではなく、それぞれのタスクを適切なモデルに割り当てることができます。
新しいOpenAIのモデルは、MistralのVoxtralモデルと競合しています。こちらも文字起こしと、対象となる企業のユースケースを分離しています。
企業は何をすべきか
より多くの人がAIエージェントと会話することに慣れてきたこと、そして音声による顧客インタラクションから得られるデータが豊富であることを背景に、これらの音声エージェントの価値を見出す企業が増えています。
これらのモデルを評価する組織は、モデルの品質だけでなく、オーケストレーションのアーキテクチャを考慮する必要があります。具体的には、スタックが離散的な音声タスクを専門のモデルへルーティングできるかどうか、そして128Kトークンのコンテキストウィンドウ全体で状態を管理できるかどうかです。
