MemoryCD：LLMエージェントの長期コンテキストにおけるユーザーメモリを、継続的なクロスドメイン個人最適化のためにベンチマークする

arXiv cs.CL / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MemoryCD を提案し、百万トークン級の長文コンテキストでも不足していた「ユーザーメモリ」を、実ユーザー行動に基づく形で評価する大規模クロスドメイン・ベンチマークを提供します。
Amazon Review の時系列・複数ドメインの行動データから、年単位のライフロングな相互作用を追跡して、従来の台本ベースの疑似ペルソナに依存しないベンチマーク構築を行っています。
14 の最先端 LLM 基盤モデルと 6 つのメモリ手法ベースラインを、4 つのパーソナライゼーション課題／12 の多様なドメインに対して単一・クロスドメインの両方で評価する評価パイプラインを構築します。
分析の結果、既存のメモリ手法はドメインごとのユーザー満足にほど遠く、クロスドメインのライフロング・パーソナライゼーションを検証するための初のテストベッドになると述べています。

要旨: 大規模言語モデル（LLM）の最近の進展により、コンテキストウィンドウは数百万トークン規模まで拡張されていますが、記憶を評価するためのベンチマークは、短時間セッションの合成対話に限られているのが現状です。私たちは、Amazon Reviewデータセットにおける生涯にわたる実世界の振る舞いから導出された、最初の大規模かつユーザー中心で、領域横断型のメモリベンチマークである extsc{MemoryCD} を提案します。台本化されたペルソナを用いて合成のユーザーデータを生成する既存のメモリデータセットとは異なり、 extsc{MemoryCD} は複数の年にわたる、そして複数領域にまたがる、真正なユーザーの相互作用を追跡します。私たちは、12の多様な領域にまたがる、4つの異なるパーソナライゼーション課題に対して、6つのメモリ手法ベースラインと14の最先端のLLM基盤モデルからなる、多面的な長文脈メモリ評価パイプラインを構築しました。これにより、単一領域および領域横断の両方の設定において、エージェントが実際のユーザー行動をシミュレートする能力を評価します。分析の結果、既存のメモリ手法は、さまざまな領域においてユーザー満足からは大きくかけ離れていることが分かりました。さらに、領域横断の生涯にわたるパーソナライゼーション評価のための、最初のテストベッドを提供します。