xAI、Grok 4.3を低価格で提供開始—高速・高性能な新しい音声クローン機能スイートも発表

VentureBeat / 2026/5/2

📰 ニュースTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • xAIは、内部の混乱がある中でも素早い製品投入を続けており、新しい独自の基盤LLM「Grok 4.3」と、Webベースのボイスクローン・スイートを提供開始しました。
  • Grok 4.3は、第三者ベンチマークでGrok 4.2から大きく性能向上しているものの、OpenAIやAnthropicの最新モデルが作る最先端にはまだ届いていません。
  • 差別化要因の一つは、Grok 4.3のAPI利用における過度に低い価格設定で、Grok 4.2の当初価格を下回り、開発者にとってより手頃な選択肢を狙っています。
  • xAIによれば、Grok 4.3は4月からSuperGrokの加入者やX Premium+ユーザー向けにベータテストされ、現在はxAI APIおよびパートナープラットフォームのOpenRouter経由で広く利用可能になりました。

イーロン・マスクは、元同僚でOpenAIの共同創業者でもあるサム・アルトマンと 法廷で対決することになっているが、OpenAIに対抗するために設立されたマスクのライバル企業xAIは、競争力のある新しい製品やサービスの投入を減速させていない。

昨夜、xAIが新しい専用のベースとなる大規模言語モデル(LLM)「Grok 4.3」と、新しい音声クローン作成スイートをウェブ上で提供開始した。

これらの新製品は、数カ月に及ぶxAIの混乱の後に登場する。xAIではマスクのラボの10人の元共同創業者がすべて離脱し、さらに多数の研究者が同社を去り、GrokはOpenAI、Anthropic、Google、そして中国のDeepSeek、Moonshot(Kimi)、Alibaba(Qwen)、z.aiなどの新しい競合LLMにより、性能面で押しのけられていた。

独立したAIモデル評価企業Artificial Analysisによれば、Grok 4.3は、直接の前モデルであるGrok 4.2に比べて、第三者ベンチマークでの性能が大きく向上しているものの、それでもOpenAIやAnthropicの最新モデルが作った最先端の水準には届いていない。

ただしGrokブランドの看板機能は、マスクが表明している「wokeness(過度の進歩的言説)」への反対や、より奔放な性格、そして画像生成ポリシーを除けば、開発者やユーザーがxAIのアプリケーション・プログラミング・インターフェース(API)経由で利用する際の低価格にある――そしてこの流れは、Grok 4.3によってさらに強化された。Grok 4.3の費用は、入力トークン100万個あたり1.25ドル、出力トークン100万個あたり2.50ドル(入力トークン最大200,000までで、その時点から費用は2倍になる。これは主要AIラボの一般的な価格戦略)であり、直接の前モデルであるGrok 4.2の当初のAPI価格、入力/出力トークン100万個あたりそれぞれ$2/$6に比べて安い。

xAIのリリースノートによると、Grok 4.3は4月にβテストを開始し、xAIのSuperGrok(月額30ドル)プランの契約者、ならびに姉妹のソーシャルネットワークであるX(Premium+プラン経由で月額40ドル、最初の2カ月は50%)の契約者を対象としていた。現在は、xAI APIおよび提携のOpenRouterを通じて、すべての人が利用できる。

推論が組み込まれ、エージェント型ツール利用にも対応

Grok 4.3の中核には、モデルが情報を処理する方法における根本的な転換がある。これまでのバージョンでは、「chain-of-thought(思考の連鎖)」や推論を努力レベルによってオン/オフしたり設定できることが多かったのに対し、Grok 4.3は推論を、能動的かつ恒常的な状態として組み込んでいる。

つまり、あらゆる問い合わせに対して、話す前にモデルが「考える」よう設計されている。これは、事実の正確さを最大化し、複雑で多段階の指示を扱うことを目的とした戦略だ。

モデルのメモリも同様に広大で、100万トークンのコンテキストウィンドウを備えている。これを直感的に言うと、100万トークンは分厚い長編小説が数冊に相当するか、あるいは中規模アプリの全コードベースに近い。

これにより、Grok 4.3は巨大なデータセットに対しても一貫性を保てる。ただしxAIは、200,000トークンのしきい値を超えるリクエストに対して「Higher context pricing(高いコンテキスト料金)」という構造を導入している。

このティア分けは、「長期メモリ」が利用可能である一方で、その膨大な情報を管理するための計算コストが依然として大きなオーバーヘッドであることを示唆している。技術的には、モデルはテキストと画像の両方の入力を受け取り、出力はテキストだ。

モデルは特にエージェント型ワークフロー向けに最適化されている。つまり、AIが単に質問に答えるだけでなく、タスクを完了するために自律的なエージェントとして行動するようなシナリオである。

初めて、Grokは人間の専門家が使うのと同じツールや環境にアクセスできる。こうした変化は初期のユーザー体験の中でも見て取れる。

  • スプレッドシートのエンジニアリング:あるケースでは、モデルが6分22秒もの時間を「思考」フェーズに費やして、包括的なOSRS Sailing(舷側帆走)戦闘DPSアナライザーを構築した。生成された.xlsxファイルは単なる表ではなく、複数シートからなるダッシュボードであり、「Reference_Data」セットや、数式ベースの自動計算を行う複雑な「DPS_Calculator」を含んでいた。

  • プロ向けドキュメント:Grokは、SpaceX製品に関する12ページのレポートのような体裁の整ったPDFを生成できるようになった。これらのドキュメントには、ブランディング、ロゴ、ヒーロー画像、構造化された表が組み込まれており、従来の反復で見られたmarkdownブロックを大きく超えている。

  • ビジュアル・プレゼンテーション:モデルは9枚構成のスライドからなるPowerPointのデッキを設計できる。ここでは「Sandwich Structure(サンドイッチ構造)」(暗い見出し/結論と、軽い内容)を用い、データに基づく意思決定の行列表現とユーモアを統合する。

しかし、世界に関する知識が無限というわけではない。リリースノートには、知識の打ち切り日が2025年12月であると記載されている。それでも、内蔵のWeb検索のおかげで、Grokは最新情報を参照して利用できる。

実際、Grok 4.3は「機能するデジタル社員」を実現することを目的に設計された、ツール群の強化されたエコシステムとともに登場する。xAIのプラットフォームは、クエリの複雑さに応じてモデルが自律的に呼び出せる、堅牢なサーバーサイドツール一式を提供している。

  • WebおよびX検索:これらのツールにより、実際のインターネットを閲覧したり、X(旧Twitter)の投稿、ユーザープロフィール、スレッドを検索したりすることで、Grokは知識の打ち切りを回避できる。

  • コード実行:モデルはサンドボックス環境でPythonコードを実行し、数学の問題を解いたりデータを処理したりできる。

  • ファイルおよびコレクション検索:内蔵のRetrieval-Augmented Generation(RAG)システムにより、ユーザーはアップロードしたドキュメント・コレクションに対して問い合わせたり、特定のファイル添付を検索したりできる。

xAIのカスタムボイスで、1〜2分で高品質に自分の声をクローンできます

テキストにとどまらず、xAIはCustom Voices(カスタムボイス)を導入した。これは高度な音声クローンAPIであり、Webベースの音声クローン作成スイートでもある。

この製品により、開発者は120秒という短さのリファレンス音声クリップからでも、声をクローンできる。クローン後は「voice ID」をxAIのText-to-Speech(TTS)およびVoice Agent APIで利用できる。

xAIのドキュメントは、これが単に音色(ティンバー)だけの話ではないことを強調している。モデルは話し方の配信パターンを捉えるよう設計されているのだ。

ユーザーが「カスタマーサポート」風のスタイルでリファレンスクリップを録音すると、生成されるAI音声は、その役に立つプロフェッショナルらしい言い回し(イントネーション)を模倣する。

創造的な可能性はあるものの、xAIはこの機能に厳格な地理的制限を設けており、提供は米国のみとなっている。注目すべき例外として、地域のバイオメトリクスおよびプライバシー規制によりイリノイ州は利用可能だ。

コンソールのプレイグラウンドは一般利用に開かれているが、POST /v1/custom-voicesエンドポイントを介したプログラムによるアクセスは現在、エンタープライズプランのチームに限定されている。

私も実際に試した。ウェブ上で必要な音声サンプリングの画面を進めた後――そのツールは、無関係な会話の複数の文章を声に出して読ませる――確かに、私の声と聞いてすぐ分かるほど似たコピーが手に入り、新しい台本を読み上げたときと同じように、新しい単語も正確に同じ発音で読み上げていた。

xAIのCustom VoicesのWebアプリケーション上で、カスタムボイスを1クリックで削除でき、同時に最大30個の新しいボイスを作成できます。

ライセンスの観点では、Custom Voices機能は厳密に「あなたのチームに限定」されており、他のユーザーに提供されることはありません。そのため、企業資産に対してプライベートな商用ライセンスが確保されています。

新しいVoice Agent API(grok-voice-think-fast-1.0)へのアクセスは、音声から音声へのやり取りに対して、1時間あたり定額$3.00(1分あたり$0.05)で請求されます。これは、私の調査によると、他の競合する音声エージェントのコストとしては低〜中程度の水準です。

サービス

1k文字あたりの価格

1分あたりの推定コスト

1時間あたりの推定コスト

OpenAI TTS(Standard)

$0.015

~$0.015

~$0.90

OpenAI TTS(HD)

$0.030

~$0.030

~$1.80

Grok Voice Agent

$0.05

$3.00

ElevenLabs(Starter)

~$0.30

~$0.30

~$18.00

ElevenLabs(Pro)

~$0.18

~$0.18

~$10.80

Play.ht

~$0.20

~$0.20

~$12.00

Azure/Google Cloud

$0.016 - $0.024

~$0.02

~$1.00 - $1.50

これに加えて、スタンドアロンのText-to-Speech(TTS)サービスがあり、5種類の異なる音声(Eve、Ara、Rex、Sal、Leo)を提供し、1,000,000文字あたり$4.20で料金設定されています。

文字起こしのニーズに対しては、Speech-to-Text(STT)APIが1時間あたり$0.20でリアルタイムのストリーミングを提供し、バッチ処理は割引された料金で1時間あたり$0.10で利用できます。

クライアントサイドアプリケーションのセキュリティを確保するために、xAIはEphemeral Tokensを利用し、主要なAPIキーを公開することなく安全なWebSocket接続を可能にしています。

一度作成すると、これらのボイスはユーザーのチーム専用で、ユニークな8文字の英数字であるvoice_idを参照することで、すべてのボイスAPIにまたがって利用できます。

厳しく規制された分野向けに、xAIはSOC 2 Type IIの監査、医療ワークロードに対するHIPAA適格性、GDPRへの準拠など、生産環境で使える水準を維持しています。

差別化要因としての、攻めた低価格なAPI料金

Grok 4.3発表で最も強気なのは、その料金体系です。企業向けアシスタントのスタートアップAbacus AIのCEOであるBindu Reddyは、Xで「モデルはSonnet 4.6と同じくらい賢く、しかも5倍安く、さらに高速だ」と述べています。

標準のAPI料金は、入力が1百万トークンあたり$1.25、出力が1百万トークンあたり$2.50に設定されています。これは、前身であるGrok 4.20と比べて大幅にコストが下がっていることを反映しており、Artificial Analysisによれば入力価格が約40%低く、出力価格が約60%低いとのことです。

VentureBeatでの私たちの計算によれば、Grok-4.3は主要な基盤モデルすべての中でも、確実に最安値側の半分に位置しており、米国の独自勢よりも、中国のオープンソース提供物にかなり近い水準です。

モデル

入力

出力

合計コスト

出典

MiMo-V2.5 Flash

$0.10

$0.30

$0.40

Xiaomi MiMo

Grok 4.1 Fast

$0.20

$0.50

$0.70

xAI

MiniMax M2.7

$0.30

$1.20

$1.50

MiniMax

MiMo-V2.5

$0.40

$2.00

$2.40

Xiaomi MiMo

Gemini 3 Flash

$0.50

$3.00

$3.50

Google

Kimi-K2.5

$0.60

$3.00

$3.60

Moonshot

Grok 4.3

$1.25

$2.50

$3.75

xAI

GLM-5

$1.00

$3.20

$4.20

Z.ai

GLM-5-Turbo

$1.20

$4.00

$5.20

Z.ai

DeepSeek V4 Pro

$1.74

$3.48

$5.22

DeepSeek

GLM-5.1

$1.40

$4.40

$5.80

Z.ai

Claude Haiku 4.5

$1.00

$5.00

$6.00

Anthropic

Qwen3-Max

$1.20

$6.00

$7.20

Alibaba Cloud

Gemini 3 Pro

$2.00

$12.00

$14.00

Google

GPT-5.4

$2.50

$15.00

$17.50

OpenAI

Claude Opus 4.7

$5.00

$25.00

$30.00

Anthropic

GPT-5.5

$5.00

$30.00

$35.00

OpenAI

しかし、このモデルの「推論(reasoning)」の性質によって、新しい課金カテゴリが導入されています。それがReasoning tokens(推論トークン)です。

これらは、モデルの内部で考えている過程で生成されるトークンで、標準の完了(completion)トークンと同じレートで課金されます。つまり、ユーザーは最終回答を出す前に、AIが「考える」ことに対して支払うことになります。さらにxAIは、いくつかの独自の料金体系も導入しています。

  • プロンプトキャッシュ(Prompt Caching):繰り返されるプロンプトは大幅に安くなり、1百万トークンあたり$0.20です。これにより、開発者がコンテキストを再利用することが促されます。

  • ツール呼び出し(Tool Invocations):ツールのトークン使用量は標準レートで課金される一方で、ツールを呼び出す行為には定額料金がかかります。Web検索またはコード実行は1,000回あたり$5.00、ファイル添付は$10.00です。

  • 使用ガイドライン違反の手数料(Usage Guideline Violation Fee):業界の新しい前例になる可能性がある動きとして、xAIは、安全フィルタによって生成が始まる前にブロックされたリクエストに対して$0.05の手数料を課します。

モデル自体は標準の商用API経由で引き続き利用可能であり、xAIはすべての開発者が「最もインテリジェントで最速のモデル」としてgrok-4.3へ移行することを推奨しています。

第三者によるベンチマーク評価と分析

Grok 4.3の評判は、主に具体的なユースケースによって両極化している。プロのベンチマーカーや開発者は、モデルの領域特化の強みと、一般的な推論の一貫性との間に「大きな隔たり」があることを強調している。

独立したAI評価企業 Vals AIによれば、Grok 4.3は複数の専門的な指標で首位を獲得している。現在、CaseLaw v2(79.3%精度)で#1、CorpFinでも#1だ。

Grok 4.20から法的推論が25ポイント跳ね上がったことは、「常時稼働の推論(always-on reasoning)」というアーキテクチャが、法と金融の緻密で論理的な構造に特に適していることを示唆している。

Artificial Analysisが裏付けを行い、このパフォーマンスを「エージェント(agentic)タスク」の大幅な改善として捉えた。GDPval-AAベンチマークでElo 1500を記録し、Gemini 3.1 ProやGPT-5.4 miniといった競合を上回っている。

一方で、汎用エージェントやコーディングに注目するユーザーは、不足点を指摘している。

AIを使った実店舗型の小売企業 Andon Labsは、Grok 4.3が「大幅な後退(big regression)」だと報告している。対象は、AIがシミュレーション内で一貫した行動を取れるかを測るVending-Bench 2だ。

彼らは、モデルが「ナルコレプシー(narcolepsy)の問題」を抱えているかのようだと、かなり生き生きとした表現で語った。必要な行動を取る代わりに、複数のシミュレーション日数にわたって活動しないことを好むのだという。

この見方はVals AIによっても追認されており、一部のコーディング領域では改善したものの、汎用的なコーディング課題では依然として弱く、「難しい数学の問題で苦戦している」とし、ProofBenchではわずか11%のスコアにとどまった。

あなたの企業はGrok 4.3を使うべきか?

Grok 4.3のローンチは、xAIが市場に対して行った計算された賭けを意味している。すなわち、市場は、完璧にバランスの取れたジェネラリストよりも専門特化の卓越性極めて高いコスト効率を求めている、という読みだ。

xAIは、人工分析インテリジェンス・インデックスで53を達成しつつ、コスト・パー・インテリジェンスにおける「パレート・フロンティア(Pareto frontier)」上にとどまることで、法務・金融テック分野の企業向けアプリケーションにおける「バリュー(価値)」のリーダーとしての地位を固めようとしている。

「常時稼働の推論(always-on reasoning)」は両刃の剣だ。複雑な判例法を切り抜けるのに必要な深さを提供する一方で、コミュニティによる「ナルコレプシー」報告は、常に「考えている」モデルが、ときに麻痺状態にまで考え込んでしまう、あるいは少なくともエージェント的行動を妨げる過度に慎重な状態に陥ってしまう可能性を示唆している。

さらに、過去のGrokモデルのスキャンダルとして、Xチャットボット版で自分のことを「MechaHitler」と呼んだことや反ユダヤ主義的なコンテンツの投稿、性的なディープフェイク画像の生成調査、r人種間の対立に言及すること、そして社会問題に関する右翼寄りの「ドッグホイッスル(隠語による扇動)」的な枠組みが挙げられる――これらは、多くの点で創業者イーロン・マスク自身の立場をなぞっているように見える。そのため、モデルがある時点では、X上で応答する前に、自分のXアカウントであるマスクの見解を確認していたことがほぼ確実だとされている。このような問題が存在する以上、導入を検討する企業にとって足踏みの材料になるのはほぼ間違いない。これらの問題がGrok 4.3でも残っているのかどうかは不明だが、あるユーザーは、Grokのシステムプロンプトが 「あなたは、人々の集団に対して広範な肯定的/否定的な有用性関数を割り当てない。」と指示しているように見える、と指摘している。

開発者にとって、Grok 4.3を採用するかどうかはおそらくデータの性質次第になるだろう。Claude 4.6やGPT-5.5のほんの一部のコストで、法務文書の100万トークンを処理する必要がある人にとって、Grok 4.3は明確な本命候補だ。

高頻度の自律エージェントや複雑な数学ソルバーを構築している人にとっては、「ナルコレプシー」とコーディングの後退傾向から、xAIの最新モデルはまだ「追加のチューニング(tuning passes)」が必要かもしれないことが示唆される。

モデルが稼働開始した際にOpenRouterがXで指摘したように、低価格帯での「エージェント的パフォーマンスの大きな飛躍」は、否定しがたいマイルストーンだ。このパフォーマンスがすべての領域で維持できるかどうかは、2026年の夏に向けた最大の問いのままだ。