導入
会話型音声エージェントは、評価において独特の課題があります。すなわち、2つの目的を同時に満たす必要があるのです。1つは正確性(ユーザーのタスクを正しく、かつ忠実に完了させること)で、もう1つは会話体験(それを自然で、簡潔であり、話し言葉でのやり取りに適した形で実現すること)です。これらの目的は深く結びついています。確認コードを聞き違えると、完璧なLLM推論が意味を持たなくなります。選択肢の大きな壁は、音声の出力を早口で読み飛ばせない発話者を圧倒します。そして応答の遅延は、精度チェックをすべて通過していても、実運用では使い物にならない状態にしてしまいます。既存のフレームワークはこれらを別々の懸念として扱っており、タスク成功の評価、または会話ダイナミクスの評価は行うものの、両方を同時に扱えていません。
本稿では、EVAというエンドツーエンドの評価フレームワークを紹介します。EVAは、実在的なボット同士のアーキテクチャを用いて、会話型の音声エージェントによる「完全な、多ターンの音声会話」を評価します。EVAは2つの高レベルスコア(EVA-A:Accuracy、EVA-X:Experience)を生成し、それぞれの次元における失敗を表面化させることを目的としています。EVAは、タスク成功と会話体験を同時にスコアリングする最初の手法です。また、フライトの予約変更、キャンセル対応、バウチャーなどを含む50シナリオからなる初期の航空会社データセットでEVAを公開します。これは、計画されている複数領域のシリーズのうち最初のものです。
さらに、音声から音声へのモデルや大規模音声言語モデルなどの、20のカスケード型および音声ネイティブ型システムに対するベンチマーク結果も提供します。私たちの最大の発見は、Accuracy-Experienceのトレードオフが一貫して見られることです。タスク完了でうまく機能するエージェントは、往々にしてユーザー体験が悪くなり、逆もまた然りです。
背景と動機
現在、この分野には、音声エージェント同士のやり取りの「全体の品質」を評価するフレームワークが不足しています。多くの既存の取り組みは、個々の構成要素を切り離して評価しているためです。たとえば、AudioBench、SD-Eval、VoxEval、Kimi-Eval、VoiceBench、およびVoxDialogueは、転写、パラ言語情報、音響的手がかりといった中核の音声理解能力を評価しますが、それらは単一ターンかつ非対話的な設定に限定され続けています。一方で、EmergentTTSやSHEETは、主観的なリスニングテスト(例:平均オピニオン・スコア)を用いて知覚される音声品質を評価します。音声知覚の先に進むと、FD-Bench、Talking Turns、Full-Duplex-Benchは、中断、バックチャネリング、ターンテイキングといった会話ダイナミクスのより深い分析を提供しますが、タスク指向のツール利用とは切り離して評価しており、そのため対話の品質とエージェント能力の関係が検証されていません。より最近の取り組み、特にVoiceAgentBenchやCAVAは、ツールコーリングや複雑な指示追従などを含む、市販の音声エージェントシステムのエージェント的能力を評価する方向へ進んでいます。しかし、これらの音声エージェント的能力は、実際に音声エージェントが辿らなければならない「完全な会話ワークフロー」の中で評価されていません。つまり、最初のユーザー要求から始まり、多段のツールオーケストレーションを経て、最終的なタスク解決に至るまでを通しで評価できていないのです。
AccuracyとExperienceの両方を同時に捉えるフレームワークがないことは、音声エージェントの品質を…
s an integrated whole. This means evaluating not only whether the task succeeded, but whether the agent communicated accurately, concisely, and naturally throughout, and surfacing how these dimensions trade off against one another in realistic deployment conditions.EVA
The Framework
エンドツーエンドの評価では、コンポーネント単位では見えない相互作用のダイナミクスが明らかになります。たとえば、エージェントが会話中の自然な「間」にユーザーを遮ってしまうかどうか、ユーザーが文字起こしの誤りを訂正したときにスムーズに回復できるかどうか、あるいは高いレイテンシが会話の流れをどれだけ乱して、ユーザーが言い直したくなったり、タスク自体を最終的に諦めてしまったりするのか、などを評価対象とします。
EVAは、ライブ音声上でのマルチターンの音声会話をシミュレートします。このときエージェントは、適切なツールを呼び出し、タスク固有のポリシーに従い、そして決定論的に検証可能な最終状態へ到達しなければなりません。EVAは、5つの主要コンポーネントからなるボット対ボットの音声アーキテクチャを用いてボイスエージェントを評価します。
ユーザーシミュレータ — 特定のゴールとペルソナをもつ会話型AIで、発信者(コーラー)の役割を果たします。高品質なTTSモデルを使って音声で動作するため、自然な会話音声における代表的な音声理解の課題や、現実的なターンテイキングのダイナミクスまで評価に含められます。
ボイスエージェント — 評価対象のボイスエージェントです。リアルタイム音声アプリ向けのオープンソースPythonフレームワークであるPipecatで構築されています。EVAは、カスケード型アーキテクチャ(STT → LLM → TTS)と、音声ネイティブモデル(S2SまたはS2T→ TTSのいずれも)をサポートします。
ツール実行エンジン — 独自のPython関数によって決定論的で再現可能なツール応答を提供する仕組みです。シナリオごとの事前に定義されたデータベースを動的に照会し、必要に応じて変更します。
バリデータ — 会話が完結していること、そして人手による注釈を必要とせず、ユーザーが意図されたふるまいと発話を忠実に再現したことを確認する一連の検証指標です。この検証手順で失敗した会話は再生成されるため、有効で正しく実行された会話のみが評価に投入されます。これは、シミュレータのエラーを見つけるために事後の人手によるラベリングに依存するアプローチとは対照的です。
メトリクス・スイート — 会話の録音、文字起こし(トランスクリプト)、ツール呼び出しログを用いてボイスエージェントを評価する一連の指標です。
Data
フレームワーク内の各テストケース(シナリオ)は評価記録であり、テストが再現可能になるように構造化されています。
- ユーザーゴール — 発信者が達成しようとしていることです。ユーザーシミュレータが会話を通じてたどる、非常に具体的なユーザー目標と厳密な意思決定ツリーを含みます。意図された結果について曖昧さが残らないように設計されています。
- ユーザーペルソナ — 発信者がどのように振る舞うべきか(話し方のスタイル、忍耐力のレベル、性格特性など)。
- シナリオデータベース — エージェントのツールが照会するバックエンドデータです。
- グラウンドトゥルース — 成功した会話の後に、シナリオデータベースが取るべき最終状態です。
EVAは、合成(シンセティック)な航空会社データセットとして50のシナリオを公開します。IRROPSの再予約、任意の旅程変更、キャンセル、同日スタンバイ、補償バウチャーにまたがります。シナリオは、時間的推論、ポリシー順守、制約充足、固有表現(ネームドエンティティ)の取り扱いをテストするよう設計されています。
完全なデモはこちらをご覧ください。
Evaluation Methodology
EVAは、2つの基本次元にわたってボイスエージェントを評価します。EVA-Aは正確性、EVA-Xは体験(エクスペリエンス)です。さらにEVAには診断用の指標群も含まれています。主要指標とは異なり、これらはモデルを直接比較・順位付けするために使われるのではありません。代わりに、なぜそのモデルがそのスコアになるのかを粒度高く理解するために用いられ、特定の失敗モード(ASR、音声合成など)を特定し把握するのに役立ちます。なお、シナリオごとに3回の試行(k = 3)を行い、少なくともk回のうち1回が成功する確率であるpass@kと、k回すべてが成功する確率であるpass^kの両方を報告します。これにより、最大性能と行動の一貫性の両方を捉えます。
EVAは2種類の評価手法を用います。1つは、構造化データから直接スコアを計算でき、処理が高速な決定論的なコードベース指標です。もう1つは、LLM-as-Judge指標で、大規模言語モデル(LLM)を用いて会話の質的側面を評価する、あるいは大規模音声言語モデル(LALM)を用いて音声そのものを直接評価します。各ジャッジベース指標では、その指標に特化して厳選された評価データセットで最も良い性能を出すモデルが用いられます。
EVA-A: Accuracy
タスクの完了そのものは、正確性の必要条件ではあるものの、十分な指標ではありません。エージェントは、正しい最終状態に到達できたとしても、ポリシーの細部を捏造していたり、確認コードを読み上げる際に誤っていたり、会話の途中で飛行便番号をでっち上げたりしている可能性があります。こうした失敗は二値のpass/fail判定では見えない一方で、ユーザーに直接的な害を与えます。したがってEVA-Aでは、正確性を3つの次元で測定します。
- タスク完了 [決定論的] — シナリオデータベースの期待される最終状態と、会話後の実際の最終状態を比較し、エージェントがタスクを正しく完了できたかを測定します。
- 忠実性(フォーイスフルネス) [LLM-as-Judge] — エージェントの応答が、その指示、ポリシー、ユーザー入力、ツール呼び出し結果に基づいているかどうかを測定します。捏造、誤った言い換え(ミスリプレゼンテーション)、ポリシー違反、幻覚(ハルシネーション)を検出します。
- 発話忠実度 [LALM-as-Judge] — 音声システムが、意図された発話内容を忠実に再現できているかどうかを測定します。
…
tended text in spoken audio, with particular focus on entities critical to get right in a voice context, such as confirmation codes, flight numbers, and dollar amounts. This is the only metric in any end-to-end voice agent benchmark that evaluates the quality of the agent's own spoken output at the audio level.EVA-X: Experience
ターンテイキングのタイミングは重要ですが、それは物語の一部にすぎません。エージェントが完璧なタイミングで応答していても、ユーザーが素早く確認できない選択肢の壁で通話相手を圧倒したり、すでに提示した情報を繰り返し求めたりすることがあります。こうした失敗は、タイミングがずれていない限りは起きたことが見えにくく、それでも体験を劣化させます。そこでEVA-Xは、体験を3つの次元で測定します:
- 簡潔さ [LLM-as-Judge] — エージェントの応答が、音声での提供に適切に短く、要点に絞られていたかを測定します。電話利用者は、長い応答をスキップしたり、読み直したり、スクロールで戻ったりできません。
- 会話の進行 [LLM-as-Judge] — エージェントが会話を効果的に前に進めたかを測定します。具体的には、繰り返しを避け、ターン間で文脈を維持し、立ち止まらずにタスク完了へ向けて推進できたかどうかです。
- ターンテイキング [LLM-as-Judge] — エージェントが話すタイミングが適切だったかを測定します。ユーザーの発話を遮らず、ユーザーが話し終えた後に過度な沈黙を導入しないようにできていたか、という観点です。
Findings
私たちは、プロプライエタリとオープンソース、カスケード型と音声ネイティブ型を含む20のシステムを評価し、タスク完了と精度・体験の間に一貫したトレードオフがあることを見いだしました。タスク完了で良い成績を出すエージェントは、往々にしてユーザー体験が悪くなり、その逆もまた成り立ちます——つまり、タスク完了のみをスコアするベンチマークでは見えないトレードオフです。どちらか一方の軸を両方で支配する単一の設定が存在しないことが確認でき、精度と体験はセットで測定すべきだということが示されます。
さらに、固有表現(ネームドエンティティ)の転写が支配的な失敗モードであることも特定しました。1文字の聞き違いが、認証失敗へ連鎖し、会話全体の破綻につながることがあります。また、複数ステップのワークフローは、予測可能な形でエージェントを壊します。例えば、付帯サービス——座席、手荷物——を保持しつつフライトの再予約を行うことは、すべての設定において最大の複雑性の破壊要因になっています。最後に、実運用のユースケースには追加のキャリブレーションが必要だとも分かりました。pass@3とpass^3の間には、全設定で大きなギャップがあります。タスクを完了できるエージェントでさえ、しばしば一貫して完了できないのです。これは実世界で成功するために重要です。
早期結果はこちらで確認できます。
Limitations
EVAは会話型音声エージェントをエンドツーエンドで厳密に評価するよう設計されていますが、フレームワーク、データ、指標の各側面において、いくつか重要な制約があります。これらは事前に認識しておく必要があります:
フレームワーク — ユーザーシミュレータは、音声特性に関して特定のASR(自動音声認識)システムを体系的に有利にする可能性がある1つの商用プロバイダに依存しています。また、ボット間のパイプライン(音声フォーマットの変換や、リアルタイム音声インターフェースを含む)は、実運用のデプロイを完全には表現できないかもしれません。さらに、完全な再現には商用APIへのアクセスが必要で、レイテンシ測定の結果はプロバイダやインフラによって変わります。
データ — 現在のリリースでは、単一のドメインにおける英語シナリオ50件を扱っています。そのため、他のユースケース、他の言語、他の訛り(アクセント)に対して結果が一般化できるとは限りません。
指標 — LLM-as-judgeモデルには内在するバイアスがあり、品質とは無関係に特定の応答スタイルを好む可能性があります。さらに、評価対象モデルとジャッジモデルが同一プロバイダを共有している場合、体系的バイアスが生じるリスクが増します。私たちは、ラベル付きデータセットに対してジャッジの検証を行い、ウェブサイト上で精度の測定値も報告していますが、整合(アラインメント)のスコアだけでは体系的バイアスを完全に排除できません。加えて、タスク完了は二値(できた/できなかった)で測定しており、部分的なクレジットを捉えらず、致命的に失敗するケースと比べてうまくフェイルセーフできるシステムの相対品質が過小評価される可能性があります。
What's Next
評価の面では、プロソディック(韻律的)品質の評価(発音、リズム、表現力)を追加する予定です——ただし現在は、LALM-as-judgeと人間の判断の間で非常に低い整合が見つかった後に残っているオープンな課題です。加えて、ノイズの多い条件、さまざまなアクセント、多言語のユーザー、話し方の多様な話者行動に対する頑健性テストも行う予定であり、ユーザーの不調(困りごと)に対してエージェントがどう応答するかを、感情(アフェクト)を意識した評価として取り入れます。データの面では、追加のドメイン向けデータセットを開発しています。各データセットには異なるポリシー構造、固有表現プロファイル、会話ダイナミクスがあり、さらに複合的な要求(コンパウンドリクエスト)、複数ステップのフォローアップ、より長い会話メモリを含む、より複雑なシナリオも用意します。ツール面では、指標とモデルごとにエラーを自動的に特定し、探索のための代表的な例を提示し、各モデルの強みと弱みを構造化された要約として生成する「結果・誤り分析アプリ」をリリースします。最後に、フィールド全体で音声エージェントの能力を常に最新の状態で評価できるよう、リーダーボードを継続的に拡張するつもりです。
制約と、今後のロードマップの詳細はこちらをご覧ください。
Acknowledgements
主要な貢献者には、Tara Bogavelli、Gabrielle Gauthier Melançon、Katrina Stankiewicz、Oluwanifemi Bamgbose、Hoang Nguyen、Raghav Mehndiratta、Hari Subramani が含まれます。
また、データの注意深いレビューと、フレームワークへの思慮深い貢献をしてくださったLindsay Brin、Akshay Kalkunte、Joseph Marinier、Jishnu Nair、Aman Tiwariに感謝します。さらに、運営、リーダーシップ、プロジェクト全体を通じた支援をしてくださったFanny Riols、Anil Madamala、Sridhar Nemala、Srinivas Sunkaraにも感謝いたします。加えて、このプロジェクトの貴重な着想となった、評価と音声エージェントに関するPAVAおよびCLAE ServiceNowチームのこれまでの取り組みにもお礼を申し上げます。
引用(Citation)
text-gray-200 w-4" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"> 引用@misc{eva-2026,
title={音声エージェントを評価するための新しいエンドツーエンドのフレームワーク (EVA)},
author={Bogavelli, Tara and Gauthier Melançon, Gabrielle and Stankiewicz, Katrina and Bamgbose, Oluwanifemi and Nguyen, Hoang and Mehndiratta, Raghav and Subramani, Hari},
year={2026},
url={https://github.com/ServiceNow/eva}
}




