記憶のリコールから忘却へ：パーソナライズドエージェントの長期記憶をベンチマークする

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、パーソナライズドエージェント向けの既存の長期記憶ベンチマークが主に過去の会話からの事実検索を扱っており、記憶の統合や状況変化への適応を十分に見られていない点を指摘しています。
週〜月スケールの長期ユーザ会話を対象にした Memora を提案し、記憶に基づく3つのタスク（記憶する、推論する、推薦する）で評価します。
データ品質のために、自動のメモリ・グラウンディング検査と人手評価を併用し、古くなった／無効化された記憶に依存した場合にペナルティを課す指標 Forgetting-Aware Memory Accuracy（FAMA）も導入しています。
4つのLLMと6つのメモリ拡張エージェントの評価では、無効な記憶を繰り返し再利用する事例が多く、さらに進化する記憶を整合させられない失敗が見られました。
総じて、長期間稼働しつつ知識更新が頻繁に起こるパーソナライズドエージェントの要件に対して、現在の長期記憶アプローチはまだ不十分であることを示唆しています。