概要: 大規模言語モデルに長期記憶を与えることは、ユーザーのニーズが変化していくのに適応できるエージェントを構築するうえで重要である。 しかし、従来の評価では、選好に関連する対話が無関係な会話と典型的に混在させられており、その結果、この課題は、ユーザーの嗜好の進化を駆動する出来事同士の関係を無視したまま、わらの中の針のような検索にまで縮小されてしまう。 このような設定は、現実世界のパーソナライズにおける本質的な特徴――すなわち、嗜好が徐々に形成され、雑音の多い文脈の中で相互作用をまたいで蓄積されていくこと――を見落としている。 このギャップを埋めるために我々は、静的な嗜好の想起を超えて、時間経過に伴うパーソナ一貫性を評価するベンチマークPERMAを導入する。 さらに、(1) テキストの変動性と(2) 言語的整合性を組み込み、現実データにおける、気まぐれなユーザー入力と個々のイディオレクトを模擬する。 PERMAは、複数のセッションと領域にまたがる、時間順に並べられた相互作用イベントから成り、時間の経過とともに嗜好に関連するクエリが挿入される。 我々は、相互作用のタイムラインに沿ったパーソナの理解を探るために、複数選択式タスクと対話型タスクの両方を設計する。 実験により、関連する相互作用を結び付けることで、高度なメモリシステムは、対話そのものの従来の意味検索よりも、より正確な嗜好を抽出し、トークン消費を抑えることができることが示される。 それでもなお、時間的な深さと領域をまたいだ干渉の両方にわたって首尾一貫したパーソナを維持することには依然として苦戦しており、エージェントにおけるより頑健なパーソナライズド・メモリ管理の必要性が浮き彫りになる。 我々のコードとデータは https://github.com/PolarisLiu1/PERMA でオープンソースとして公開されている。
PERMA:イベント駆動の嗜好と現実的なタスク環境によるパーソナライズド・メモリ・エージェントのベンチマーク
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、静的な嗜好の想起に依存するのではなく、時間順に並ぶ複数セッションの相互作用においてモデルがペルソナの一貫性をどれだけ維持できるかを検証することで、長期のパーソナライズド・メモリ・エージェントを評価するためのベンチマークPERMAを提案する。
- 先行評価の限界、すなわち嗜好に関連する対話と無関係な会話が混ざってしまう点を扱い、ノイズの多い文脈の中でユーザの嗜好がどのように徐々に形成され、蓄積されていくかをモデル化する。
- PERMAは、時間的に変化するイベント系列に嗜好クエリを時系列の中に挿入することで、現実世界における入力のばらつきと、言語的整合(イドィオレクト)をシミュレーションにより取り込む。
- ベンチマークには、複数選択式タスクとインタラクティブ・タスクの両方が含まれ、複数領域にわたって相互作用のタイムライン上で嗜好を追跡する能力を測定する。
- 実験の結果、イベントに紐づくメモリ・システムはセマンティック・リトリーバルと比べて、より正確な嗜好を回復しトークン使用量を削減できる可能性が示されるが、それでも長期のペルソナ一貫性や領域間の干渉の問題には依然として課題がある。