もっと売る、より遊ばない：LLMの現実的な販売スキルをベンチマークする

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMを対象に、測定可能な案件進捗と最終結果を伴う現実的な多回ターンの販売対話で評価するためのバイリンガル（ZH/EN）ベンチマーク「SalesLLM」を紹介する。
SalesLLMは、30,074件の台本化された構成と、1,805件の厳選シナリオから構築されており、難易度、人物像（ペルソナ）、金融サービスおよび消費財にまたがるカバレッジを制御できる。
評価パイプラインは完全自動であり、販売プロセスの進捗をLLMベースの採点者（rater）で評価し、対話の終盤で購入意向を予測するために微調整済みBERT分類器を用いる。
シミュレーションの忠実度を高めるため、著者らはSFTとDPOで顧客行動モデル（CustomerLM）を訓練し、ロール反転をGPT-4oでの17.44%から8.8%へと低減する。
結果は、専門家の人手評価との強い相関（Pearson r=0.98）と、15の主要LLM間での有意な性能差を示しており、このベンチマークがアウトカム志向の販売エージェント開発に役立てられることを示唆している。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH