概要: 大規模言語モデル(LLM)の開発は顧客サービスにおける自動化を促進しましたが、その性能をベンチマークすることはいまだ困難です。既存のベンチマークは主に静的なパラダイムと単一の次元の指標に依存しており、多様なユーザー行動や、現実の導入で必要とされる厳格な構造化された標準作業手順(SOP)への順守を考慮できていません。このギャップを埋めるために、我々は SAGE(Service Agent Graph-guided Evaluation)を提案します。これは、自動化された二軸に対する普遍的なマルチエージェント・ベンチマークです。SAGE は、非構造の SOP をダイナミックな対話グラフとして形式化し、論理的な順守の厳密な検証と、包括的な経路カバレッジを可能にします。さらに、敵対的意図(Adversarial Intent)の分類法と、モジュール化された拡張メカニズムを導入し、ドメインをまたいだ低コストでの展開を可能にすると同時に、自動化された対話データの合成を促進します。評価は、ユーザーエージェントとサービスエージェントの相互作用を、ジャッジエージェントとルールエンジンが解析し、決定論的な正解(ground truth)を生成する枠組みにより実施します。6つの産業シナリオにわたって27のLLMを対象にした大規模な実験により、「Execution Gap(実行ギャップ)」と呼ばれる顕著な現象が明らかになりました。すなわち、モデルは意図を正確に分類できる一方で、その後の正しいアクションを導き出せないのです。また、さらに「Empathy Resilience(共感レジリエンス)」という現象も観察されました。これは、高い敵対強度のもとで内部の論理的失敗が生じていても、モデルが丁寧な会話の外観を維持し続けるというものです。コードおよびリソースは https://anonymous.4open.science/r/SAGE-Bench-4CD3/ で利用可能です。
SAGE: サービスエージェントのグラフ誘導評価ベンチマーク
arXiv cs.AI / 2026/4/13
📰 ニュース
要点
- SAGEベンチマークは、グラフ誘導のデュアル軸フレームワークを用いて、SOPの論理的準拠と対話パスのカバレッジの両方を検査することで、LLMベースのカスタマーサービスエージェントをより適切に評価することを目的として提案される。