SAGE: サービスエージェントのグラフ誘導評価ベンチマーク

概要: 大規模言語モデル（LLM）の開発は顧客サービスにおける自動化を促進しましたが、その性能をベンチマークすることはいまだ困難です。既存のベンチマークは主に静的なパラダイムと単一の次元の指標に依存しており、多様なユーザー行動や、現実の導入で必要とされる厳格な構造化された標準作業手順（SOP）への順守を考慮できていません。このギャップを埋めるために、我々は SAGE（Service Agent Graph-guided Evaluation）を提案します。これは、自動化された二軸に対する普遍的なマルチエージェント・ベンチマークです。SAGE は、非構造の SOP をダイナミックな対話グラフとして形式化し、論理的な順守の厳密な検証と、包括的な経路カバレッジを可能にします。さらに、敵対的意図（Adversarial Intent）の分類法と、モジュール化された拡張メカニズムを導入し、ドメインをまたいだ低コストでの展開を可能にすると同時に、自動化された対話データの合成を促進します。評価は、ユーザーエージェントとサービスエージェントの相互作用を、ジャッジエージェントとルールエンジンが解析し、決定論的な正解（ground truth）を生成する枠組みにより実施します。6つの産業シナリオにわたって27のLLMを対象にした大規模な実験により、「Execution Gap（実行ギャップ）」と呼ばれる顕著な現象が明らかになりました。すなわち、モデルは意図を正確に分類できる一方で、その後の正しいアクションを導き出せないのです。また、さらに「Empathy Resilience（共感レジリエンス）」という現象も観察されました。これは、高い敵対強度のもとで内部の論理的失敗が生じていても、モデルが丁寧な会話の外観を維持し続けるというものです。コードおよびリソースは https://anonymous.4open.science/r/SAGE-Bench-4CD3/ で利用可能です。

SAGE: サービスエージェントのグラフ誘導評価ベンチマーク

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer