要旨: エージェントのメモリシステムは経験を蓄積しますが、現在のところ、メモリ品質のガバナンスのための原理に基づく運用指標が欠けています――エージェントのタスク分布が変化するにつれて、どのメモリを信頼し、どれを抑制し、どれを廃止(deprecated)すべきかを判断するための指標です。書き込み時の重要度スコアは静的であり、動的管理システムは、結果に関するフィードバックではなく、LLMの判断や構造的ヒューリスティックに依存しています。本論文では Memory Worth(MW)を提案します。これは、メモリごとに2つのカウンタを用いる信号であり、成功と失敗の結果とともにメモリが生起する頻度を追跡します。これにより、陳腐化(staleness)検知、検索の抑制(retrieval suppression)、廃止の判断に対して、軽量で理論的に裏付けられた基盤を提供します。MWは、最小限の探索条件を満たす定常的な検索レジームの下で、条件付き成功確率 p+(m) = Pr[y_t = +1 | m ∈ M_t] に確率1で収束することを証明します。ここで、p+(m) は、メモリ m が検索される状況のもとでのタスク成功確率です。重要なのは、p+(m) が因果の量ではなく関連(associational)の量だという点です。すなわち、それは結果の「共起」を測っており、因果的寄与を測っているわけではありません。それでも、これがメモリガバナンスにとって有用な運用上の信号であると主張し、さらに、真の有用性が既知である制御された合成環境において実験的に検証します。10,000エピソード後、Memory Worth と真のユーティリティのスピアマン順位相関は、20の独立したシードにわたって rho = 0.89 +/- 0.02 に到達し、更新を一切行わないシステムでは rho = 0.00 でした。実テキストとニューラル埋め込みによる検索(all-MiniLM-L6-v2)を用いた、検索を現実に即したマイクロ実験でも、陳腐なメモリが低い価値閾値(MW = 0.17)を横切る一方で、専門家メモリは高い価値(MW = 0.77)のままであることが、3,000エピソードにわたって示されます。推定器は、メモリ単位あたり2つのスカラー・カウンタだけを必要とし、すでに検索ログやエピソード結果を記録しているアーキテクチャに追加可能です。
忘れるべきとき:メモリ・ガバナンスの基本プリミティブ
arXiv cs.AI / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のエージェントのメモリシステムには、タスクが時間とともに変化していく中で、メモリを信頼するのか抑制するのか廃止するのかを判断するための、原理的で運用可能な指標が欠けていることを指摘する。
- 「Memory Worth(MW)」を提案する。これは、メモリごとに2つのカウンタを持つ軽量なシグナルであり、想起されたメモリが成功と失敗の結果とどれくらい頻繁に同時に現れるかに基づいて更新される。
- 著者らは、最低限の探索を伴う定常的な想起(retrieval)レジームのもとで、MWが条件付き成功確率 Pr[y_t=+1 | m retrieved] にほぼ確実に収束することを証明しつつ、MWは因果的というより関連(associational)的であることを明確化する。
- 制御された合成環境での実証的検証では、MWが真のメモリ有用性を密に追跡し(Spearman相関は約0.89)、更新しない固定ベースラインよりも優れていることが示される。
- ニューラル埋め込みによる想起(all-MiniLM-L6-v2)を用いた、想起を現実に近づけたマイクロ実験では、古くなったメモリは低いMW閾値を下回る一方で、専門性のあるメモリは高い価値を保つことが示される。また、このアプローチは既存のログ記録(logging)アーキテクチャに追加可能であるように設計されている。




