要旨: 大規模言語モデル(LLM)エージェントは、一貫したパーソナライズのために長期のユーザーメモリを必要とするが、限られたコンテキストウィンドウのために長時間のやり取りの中で変化していく嗜好を追跡することが困難である。既存のメモリシステムは主に、静的で手作りの更新規則に依存している。強化学習(RL)ベースのエージェントがメモリ更新を学習できるとしても、まばらな結果報酬による弱い教師信号のために、長いホライズンでの最適化が不安定になる。メモリ・スキーマ理論と、前頭前野領域と海馬領域の機能的な分業に着目し、我々は、認知に着想を得た二段階最適化フレームワークであるMemCoEを提案する。MemCoEは、メモリがどのように整理されるべきか、そしてどの情報を更新すべきかを学習する。第1段階では、テキスト上の勾配として解釈された対比的フィードバックによりグローバルなガイドラインを最適化する、Memory Guideline Induction(メモリ・ガイドラインの誘導)を提案する。第2段階では、誘導されたガイドラインを用いて構造化されたプロセス報酬を定義し、さらに多ターンRLを行うことで、ガイドラインに従うメモリの進化ポリシーを学習するGuideline-Aligned Memory Policy Optimization(ガイドライン整合メモリ・ポリシー最適化)を行う。3つのパーソナライズ・メモリのベンチマークで評価し、明示的/暗黙的な嗜好、ならびにサイズやノイズの異なるケースをカバーした結果、強力なベースラインに対して一貫した改善が見られ、頑健性、転移可能性、効率の面でも好ましいことが確認された。
学習:何を、どのように記憶するか—進化するメモリのための認知に着想を得た二段階最適化
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、コンテキスト長の制約により、長い対話にわたって変化するユーザー嗜好を追跡しにくいという課題に加え、静的な手作り更新ルールや、疎な報酬しか得られないRLベースの更新が不安定になりがちである点を扱います。
- MemCoEとして、メモリの「どう組織化すべきか」と「何を更新すべきか」を切り分けて学習する、認知に着想を得た二段階最適化枠組みを提案します。
- 第1段階では、コントラスト的フィードバックを「テキスト上の勾配」と解釈して、グローバルなメモリ指針(ガイドライン)を学習する Memory Guideline Induction を行います。
- 第2段階では、学習した指針を用いて構造化したプロセス報酬を設計し、指針に従うメモリ更新のためのマルチターンRLポリシーを学習する Guideline-Aligned Memory Policy Optimization を行います。
- 3つのパーソナライズ用メモリのベンチマークで、さまざまな嗜好の明示/暗示、メモリサイズ、ノイズ条件において強力なベースラインを一貫して上回り、頑健性・転移性・効率の面でも良好な結果が示されます。
