xAI — Voice Agent Builder
電話AIを、
画面だけで組み上げる。
4月18日に Grok の STT と Voice API が公開されて以来、「音声モデルは揃ったが、電話越しの応対を作るのは相変わらず難しい」と言われてきました。7月5日、xAI がその一段上を差し出します。コードなしで音声エージェントを組み立てるためのビルダーです。
Not Just Voices
音声モデルの一段上、組み立ての層
API だけ渡されて全部自分でつなげる時代を、そろそろ終わらせにきています。
これまでの音声 AI は「STT・LLM・TTS を自分でつなげてください」という部品出し中心でした。実際に電話応対を作ろうとすると、割り込み検出・沈黙処理・エスカレーション条件・CRM 連携など、モデル外の作業のほうが重い。ここが多くのチームで詰まる場所でした。
7月5日、xAI は「Voice Agent Builder」を提供開始しました。Grok Voice を核に、Web の UI 上でノード(挨拶・意図判定・分岐・保留・引き継ぎ)を並べていくと、電話番号を割り当てられる音声エージェントが立ち上がる——という組み立て層です。
How You Build
組み立ての単位は「ステップ」
複雑な会話フローを、5つ前後のステップで表現するのが標準的な作り方です。
受電と挨拶
着信を受け、業務内容と本人確認レベルを尋ねる導入。時間帯・言語で自動分岐できます。
意図判定
Grok Voice が発話をリアルタイムで解釈し、あらかじめ定義した意図(予約・キャンセル・問い合わせ…)のどれに近いかを推定します。
業務ノード
意図ごとに「予約可否照会」「請求情報取得」などの API 呼び出しを並べます。CRM・DB は Webhook で接続。
エスカレーション
閾値を超える難易度・怒りの兆候・支払い関連の話題は、人間オペレーターへ引き渡し。文脈もそのまま渡ります。
後処理
通話終了後、要約・タグ付け・CRM 更新までを自動で。翌日のレビューに使える会話ログが揃います。
Who It's For
誰の課題を解いているか
コールセンター運営
予約・キャンセル・一次受付など「同じことを何度も」の層を、まず数名分の代替として置ける粒度。人にしかできない場面へ、既存オペレーターの時間を寄せられます。
小規模事業者
営業時間外の一次応対や、繁忙期のスパイクを埋める用途に向いています。開発リソースが薄い企業でも UI 上で組み立てられるのが大きい。
個人ユーザー
今のところ、ここが主戦場ではありません。個人利用者向けの音声アシスタントは既存の Grok Voice で足ります。ビルダーの対象は「他人からかかってくる電話を、あなたの代わりに受ける」用途です。
音声モデルの争いは、これで
「誰が組み立てを楽にするか」のフェーズに入る。