MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization

arXiv cs.CL / 3/30/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • MemoryCD を提案し、百万トークン級の長文コンテキストでも不足していた「ユーザーメモリ」を、実ユーザー行動に基づく形で評価する大規模クロスドメイン・ベンチマークを提供します。
  • Amazon Review の時系列・複数ドメインの行動データから、年単位のライフロングな相互作用を追跡して、従来の台本ベースの疑似ペルソナに依存しないベンチマーク構築を行っています。
  • 14 の最先端 LLM 基盤モデルと 6 つのメモリ手法ベースラインを、4 つのパーソナライゼーション課題/12 の多様なドメインに対して単一・クロスドメインの両方で評価する評価パイプラインを構築します。
  • 分析の結果、既存のメモリ手法はドメインごとのユーザー満足にほど遠く、クロスドメインのライフロング・パーソナライゼーションを検証するための初のテストベッドになると述べています。

Abstract

Recent advancements in Large Language Models (LLMs) have expanded context windows to million-token scales, yet benchmarks for evaluating memory remain limited to short-session synthetic dialogues. We introduce \textsc{MemoryCD}, the first large-scale, user-centric, cross-domain memory benchmark derived from lifelong real-world behaviors in the Amazon Review dataset. Unlike existing memory datasets that rely on scripted personas to generate synthetic user data, \textsc{MemoryCD} tracks authentic user interactions across years and multiple domains. We construct a multi-faceted long-context memory evaluation pipeline of 14 state-of-the-art LLM base models with 6 memory method baselines on 4 distinct personalization tasks over 12 diverse domains to evaluate an agent's ability to simulate real user behaviors in both single and cross-domain settings. Our analysis reveals that existing memory methods are far from user satisfaction in various domains, offering the first testbed for cross-domain life-long personalization evaluation.