WebMall――Webエージェントを評価するためのマルチショップ・ベンチマーク
arXiv cs.CL / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、複数の模擬ECショップにまたがる複雑な比較購買タスクでLLMベースのWebエージェントを評価するためのオフライン・ベンチマーク「WebMall」を提案しています。
- 先行ベンチマークがライブWebによる評価(再現性が低い)か、単一ショップで比較的単純なECデータを扱うものに限られていたのに対し、WebMallは4つのショップを異種の商品情報で再現します。
- WebMallのタスクは、特定商品の検索や価格比較から、補完・代替となる商品の探索、そしてチェックアウト手続きまで幅広くカバーしています。
- 観測空間、短期メモリの有無、採用するLLMが異なる8種類のエージェントで検証した結果、最も難しいカテゴリでは最良のエージェントでもタスク完了率が65%未満になることが示されています。




