もっと売る、より遊ばない:LLMの現実的な販売スキルをベンチマークする

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMを対象に、測定可能な案件進捗と最終結果を伴う現実的な多回ターンの販売対話で評価するためのバイリンガル(ZH/EN)ベンチマーク「SalesLLM」を紹介する。
  • SalesLLMは、30,074件の台本化された構成と、1,805件の厳選シナリオから構築されており、難易度、人物像(ペルソナ)、金融サービスおよび消費財にまたがるカバレッジを制御できる。
  • 評価パイプラインは完全自動であり、販売プロセスの進捗をLLMベースの採点者(rater)で評価し、対話の終盤で購入意向を予測するために微調整済みBERT分類器を用いる。
  • シミュレーションの忠実度を高めるため、著者らはSFTとDPOで顧客行動モデル(CustomerLM)を訓練し、ロール反転をGPT-4oでの17.44%から8.8%へと低減する。
  • 結果は、専門家の人手評価との強い相関(Pearson r=0.98)と、15の主要LLM間での有意な性能差を示しており、このベンチマークがアウトカム志向の販売エージェント開発に役立てられることを示唆している。