Scale AIがVoice Showdownを開始。実世界の人間の対話を反映するよう設計された、音声AI向けの世界初の嗜好ベースベンチマーク — 結果は一部のトップモデルには謙虚なものだった

VentureBeat / 2026/3/21

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

Scale AIは、実世界での人間のやり取りを反映することを目的とした、音声AI向けの世界初の嗜好ベースベンチマーク「Voice Showdown」を開始しました。
ScaleのChatLabを介して最先端モデルへ無料でアクセスでき、盲検の対戦比較と人間の嗜好によるリーダーボードを実現します。
評価は60を超える言語にまたがる何千もの自発的な会話を用いて実施され、既存のベンチマークが見逃していた能力ギャップを可視化します。
ベンチマーク設計では、時折盲検の並列比較（全プロンプトの5%未満）を用い、モデルの識別情報を開示せずに、ユーザーが一方のモデルをもう一方より好む選択を促します。

Voice AI は、私たちがそれを測定するのに使うツールよりも速く動いています。主要なAI研究機関 — OpenAI、Google DeepMind、Anthropic、xAI — は、自然でリアルタイムの会話が可能な音声モデルを出荷する競争を繰り広げています。

しかし、これらのモデルを評価するために用いられるベンチマークは、主に合成音声、英語のみのプロンプト、そして実際の話し方とはほとんど似ていない台本化されたテストセットで運用されています。

Scale AI、大規模データ注釈のスタートアップの創業者が昨年Metaに引き抜かれてそのSuperintelligence Labを率いることになったは、依然として勢いを保ち、この問題に正面から取り組んでいます。今日は Voice Showdown を立ち上げます。これは、実際の人間の相互作用の視点から音声AIをベンチマークするための、世界初のグローバル嗜好ベースのアリーナだと自称しています。

この製品は、ユーザーにとってユニークな戦略的価値を提供します。世界をリードするフロンティアモデルへの無料アクセスです。Scale の ChatLab プラットフォームを通じて、ユーザーは高水準のモデルと対話できます—通常は複数の $20/月のサブスクリプションを必要とするモデルです—無料で。見返りとして、ユーザーは時折のブラインドの、ヘッド・トゥ・ヘッドの「対決」に参加し、どちらの匿名化された先導的な音声モデルがより良い体験を提供するかを選択します。これにより、業界で最も authentic な、人間の嗜好に基づく音声AIモデルのリーダーボードのデータが提供されます。

「Voice AI は現在、AI の中で最も速く動くフロンティアです」と Scale AI の Showdown の製品マネージャー、Janie Gu は述べました。「しかし、音声モデルを評価する方法は追いついていません。」

60以上の言語にわたる自発的な音声会話から得られた結果は、他のベンチマークが一貫して見逃してきた能力のギャップを明らかにしています。

Scale の Voice Showdown の仕組み

Voice Showdown は、Scale のモデル非依存のチャットプラットフォーム ChatLab 上に構築されており、ユーザーは自由に、どのフロンティアAIモデルを選択しても、無料で、1つのアプリ内で対話できます。このプラットフォームは、Scale のグローバルな 50 万人を超えるアノテータのコミュニティに対して提供されており、約 30 万人が少なくとも 1 つのプロンプトを提出しています。Scale は本日、このプラットフォームを公開待機リストに開放します。

評価機構は、そのシンプルさの中にエレガントさを持っています。ユーザーがモデルと自然な音声会話をしている間、システムは全音声プロンプトのうち 5% 未満の頻度で盲検の並列比較を提示します。同じプロンプトを別の、匿名のモデルにも送信し、ユーザーはどちらの応答を好むかを選択します。

この設計は、既存の音声ベンチマークを悩ませる三つの問題を解決します。

第一に、すべてのプロンプトは、アクセント、背景ノイズ、未完成の文、会話の埋め草を含む実際の人間の話し言葉から来ており、テキストから生成された合成音声ではありません。

第二に、このプラットフォームは 6 つの大陸にまたがる 60 を超える言語を横断しており、英語以外の言語での対戦が全体の約 3 分の 1 を占め、スペイン語、アラビア語、日本語、ポルトガル語、ヒンディー語、フランス語が含まれます。

第三に、対戦はユーザーの日常的な会話の中で行われるため、プロンプトの 81% が会話的またはオープンエンドで、正解が1つもない質問です。これにより自動採点は排除され、人間の嗜好のみが信頼できる信号になります。

Voice Showdown は現在、2 つの評価モードを実行します：Dictate（ユーザーが話し、モデルがテキストで応答）と Speech-to-Speech、または S2S（音声対話、ユーザーが話し、モデルが返答します）。リアルタイムで interruptible な会話を捉える第3のモード「Full Duplex」は開発中です。

インセンティブ整合型投票

このデザイン上の細部が、Voice Showdown を最も closely resemble されるテキストベンチマークである LM Arena とは異なる点です。LM Arena では、批評家は、ユーザーが結果に対して大きな利害関係を持たず投票することがあると指摘しています。Voice Showdown はこれを直接解決します。ユーザーが好むモデルに投票した後、アプリは残りの会話の間、そのモデルへと切り替えます。GPT-4o Audio に投票して Gemini を上回ると、今は GPT-4o Audio と話しています。その結果に対する行動の連動性を嗜好と一致させることで、軽率な投票や不正投票を抑制します。

また、比較を歪めうる混乱要因を抑制します。両方のモデルの応答は同時にストリーミングを開始し（スピードバイアスを排除）、音声の性別は両方の選択肢で一致させます（性別嗜好バイアスを排除）、投票中にはいずれのモデルも名前で識別されません。

エンタープライズ意思決定者が注目すべき新しい Voice AI リーダーボード

Voice Showdown は、2026 年 3 月 18 日時点で 11 のフロンティアモデルを 52 組のモデル-音声ペアで評価してローンチします。すべてのモデルが両方の評価モードをサポートするわけではなく、Dictate リーダーボードには 8 モデル、S2S には 6 モデルが含まれます。

Dictate Leaderboard (Speech-In, Text-Out)

このモードでは、ユーザーが話すプロンプトを提供し、2 つの横並びのテキスト応答を評価します。以下がベースラインスコアです：

Gemini 3 Pro (1073)
Gemini 3 Flash (1068)
GPT-4o Audio (1019)
Qwen 3 Omni (1000)
Voxtral Small (925)
Gemma 3n (918)
GPT Realtime (875)
Phi-4 Multimodal (729)

注: Gemini 3 Pro と Gemini 3 Flash は統計的に同点のトップランクです。

Speech-to-Speech (S2S) Leaderboard

このモードでは、ユーザーがモデルに話しかけ、2 つの対抗する音声応答を評価します。ベースラインも同様です：

Gemini 2.5 Flash Audio (1060)
GPT-4o Audio (1059)
Grok Voice (1024)
Qwen 3 Omni (1000)
GPT Realtime (962)
GPT Realtime 1.5 (920)

注: Gemini 2.5 Flash Audio と GPT-4o Audio は、ベースライン評価でトップランクが統計的に同点です。

Dictate のランキングは、Google の Gemini 3 Pro と Gemini 3 Flash が統計的に同点の #1 で、スタイルコントロール後の Elo スコアは約 1,043–1,044 です。

GPT-4o Audio は明確な 3 位を保持しています。Gemma3n、Voxtral Small、Phi-4 Multimodal などの Open-weight モデルは顕著に追随します。

Speech-to-Speech (S2S) のランキングはトップでより接戦となっており、Gemini 2.5 Flash Audio と GPT-4o Audio がベースラインのランキングで統計的に同点の #1 です。

応答長さとフォーマットといった、知覚品質を膨張させうる要因を調整した後、GPT-4o Audio が先行します（1,102 Elo 対 Gemini 2.5 Flash Audio の 1,075）。

Grok Voice はスタイルコントロールの下で 1,093 で僅差の 2 位に浮上し、純粋な #3 のランキングが実際の性能を過小評価していることを示唆しています。

Qwen 3 Omni は Alibaba の Qwen チームのオープンウェイトモデルで、人気度が示す以上に純粋な嗜好に基づく評価で上回っており、両モードで 4 位、いくつかのより有名な名前を上回っています。

「人々が来ると、大手の名前を選ぶ傾向があります」と Gu は指摘しました。「しかし嗜好の点では、Qwen のような知名度の低いモデルが実際には先んじます。」

実世界の嗜好データによって明らかになった驚き

ランキングを超えて、Voice Showdown の実際の価値は、失敗の診断にあり、それらは多くのリーダーボードが明らかにしているよりも、音声 AI の姿をより複雑に描き出します。

多言語間のギャップは、思っている以上に深刻です

言語の堅牢性は、モデル間で最も際立った差異要因です。Dictate では、Gemini 3 系列のモデルがほぼすべての言語でトップを走ります。

S2S では、どの言語が話されているかに大きく左右されます。GPT-4o Audio はアラビア語とトルコ語で首位を走り、Gemini 2.5 Flash Audio はフランス語で最強、Grok Voice は日本語とポルトガル語で競争力があります。

しかし、より憂慮すべきは、いくつかのモデルがユーザーの言語で全く応答を返さなくなる頻度が高いことです。

GPT Realtime 1.5 は、OpenAI の新しいリアルタイム音声モデルで、非英語プロンプトに対して約 20% の頻度で英語で応答します。ヒンディー語、スペイン語、トルコ語などの高資源言語でも同様です。

その前身の GPT Realtime は約半分の率（約 10%）で不一致します。Gemini 2.5 Flash Audio と GPT-4o Audio は約 7%です。

この現象は両方向に起こります。いくつかのモデルは会話の前半の非英語の文脈を英語のターンへと持ち込み、あるいはプロンプトを誤解して全く別の言語で関係のない応答を生成します。

プラットフォーム上のユーザーの言葉は、フラストレーションを露骨に捉えています。「今日は Quest Management との面接があると言ったのに、回答する代わりに「リスク・マネジメント」についての情報を返されました。」

「GPT Realtime 1.5 は私が話していることをまとまりなく話していると誤解し、精神衛生の支援を勧めました。一方、Qwen 3 Omni は私がナイジェリアの現地語を話していたことを正しく認識しました。」

既存のベンチマークがこの点を見逃す理由は、それらが清浄な音響条件向けの合成音声を最適化しており、多言語対応が少ないことが多いからです。現実の話者が現実の環境で話す場合には、背景ノイズ、短い発話、地域的なアクセントが、ラボ条件が予測しない形で音声理解を崩します。

声の選択は美学以上のもの

Voice Showdown は、モデルレベルだけでなく、個々の声レベルでもモデルを評価します。1 つの未命名モデルの研究では、最も優れた声は、同じ基盤モデルの最悪の声よりも 30 ポイント多く勝つことがありました。両方の声は同じ推論・生成のバックエンドを共有します。違いは音声の提示方法だけです。

最高のパフォーマンスを発揮する声は、音声理解と内容の完全性で勝敗が決まる傾向がある—モデルがあなたの言葉を正しく聞き取り、完全に回答したかどうか。しかし、音声品質は声の選択レベルで決定的な要因として残り、特に他の点で同等のモデル同士の場合にはなおさらである。「声はユーザーがインタラクションを評価する直接的な基準になる」とGuは述べた。

会話でのモデルの劣化

ほとんどのベンチマークは1ターンを対象にテストします。Voice Showdownは、長時間にわたる会話全体でモデルがどのように耐えるかをテストします—そして結果は好ましくありません。

ターン1では、内容品質がモデルの失敗の23%を占めます。ターン11以降では、それが主要な失敗モードとなり43%になります。会話が長くなるにつれて、多くのモデルは勝率が低下し、複数のやり取りをまたいで一貫性を維持するのに苦労します。

GPT Realtime系は例外で、後半のターンでやや改善します。長い文脈での強みと、初期の相互作用を支配する短くノイズの多い発話における弱点という公知の点と一致します。

プロンプトの長さには補完的なパターンが現れます。短いプロンプト（10秒未満）は音声理解の失敗が支配的で（38%）、長いプロンプト（40秒超え）は主要な失敗要因が内容品質へと移ります（31%）。短い音声はモデルに解析する聴覚的文脈を少なくし、長いリクエストは理解はされますが適切に答えるのは難しくなります。

なぜ一部の音声AIモデルは敗れるのか

S2S比較のたびに、ユーザーは3つの軸—音声理解、内容品質、音声出力—に沿って、どちらの回答を好んだかをタグ付けします。失敗の特徴はモデルごとに意味のある差を示します。

Qwen 3 Omniの損失は主に音声生成周辺に集まり、推論自体は競争力があるが、発音・音声の聞こえ方にユーザーは不満を感じる。GPT Realtime 1.5の損失は音声理解の失敗（51%）に支配され、難問での言語切替挙動と一致します。Grok Voiceの敗北は三つの軸すべてでより均等で、単一の支配的な弱点はないが、特定の長所も特にないことを示しています。

今後の展望

現行のリーダーボードはターンベースの対話を対象としている—あなたが話し、モデルが応答し、これを繰り返します。しかし、実際の音声会話はそうは進みません。人々は途中で遮ったり、文の途中で方向を変えたり、互いに重ねて話します。

Scaleは、これらのリアルタイムなダイナミクスを、脚本化されたシナリオや自動指標ではなく、人間の嗜好データを通じて捉えるFull Duplex評価がShowdownに次回追加されると述べています。既存のベンチマークは有機的な人間の嗜好データを通じた全二重対話を捉えていません。

リーダーボードは scale.com/showdown で公開中です。ChatLab に参加して比較に投票する公開待機リストは本日オープンで、時折の嗜好投票と引き換えに、GPT-4o、Gemini、Grok などの最先端の音声モデルへの無料アクセスを受けられます。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/21Dailyインサイトを見る →

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

Publickey

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

AnthropicはClaudeのOAuth回避策を停止した。2026年の最安代替策はこれだ。

Dev.to

大手テック企業はAI投資と統合を加速している一方、規制当局や企業は安全性と責任ある導入に注目している。