要約: 大規模言語モデルのアシスタントには、多くのセッションをまたいで蓄積された情報を保持し、推論することがますます求められています。本研究では、5つのペルソナ、一百の複数セッションにまたがる会話、そして事実の想起、空間をまたいだ統合、時間的推論、敵対的な回答拒否、創発的な統合にまたがる150のクエリに基づいて構築された、長期会話メモリのためのベンチマークであるEngramaBenchを提案します。私たちは、グラフ構造化されたメモリシステムであるEngramaを、GPT-4oのフルコンテキスト・プロンプトと、オープンソースのベクトル検索メモリシステムであるMem0と比較評価します。3つはいずれも同じ回答モデル(GPT-4o)を使用し、メモリアーキテクチャの効果を切り分けます。GPT-4oのフルコンテキストは最も高い複合スコア(0.6186)を達成する一方で、Engramaは全体で0.5367ですが、空間をまたいだ推論においてのみフルコンテキスト・プロンプトより高いスコアを記録します(0.6532 対 0.6291、n=30)。Mem0は最も安価ですが、実質的に大きく弱い(0.4809)です。アブレーションにより、Engramaの空間をまたいだ優位性を支える構成要素は、グローバルな複合スコアとの間でトレードオフを示すことが分かり、構造化されたメモリの専門化と、集約的な最適化の間におけるシステムレベルの緊張関係が明らかになります。
EngramaBench:構造化グラフ検索で長期会話メモリを評価する
arXiv cs.CL / 2026/4/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、5つのペルソナと150のクエリを用い、多セッションにわたる長期会話メモリを評価する新しいベンチマーク「EngramaBench」を提案している。
- グラフ構造のメモリシステムであるEngramaを、GPT-4oのフルコンテキスト・プロンプトと、ベクトル検索型のオープンソースメモリであるMem0と比較し、答えの生成モデルはGPT-4oに統一してメモリアーキテクチャの効果を切り分けている。
- GPT-4oのフルコンテキスト・プロンプトが総合(コンポジット)スコアで最も高い一方、Engramaはクロススペース推論においてのみフルコンテキストを上回る唯一の手法となっている。
- Mem0は最も安価だが、ベンチマーク上では他よりも大幅に弱い性能を示している。
- アブレーションの結果から、クロススペース推論を高めるEngramaの構成要素が、総合スコアの低下とトレードオフになることが示され、専門化された構造化メモリと総合最適化の間の緊張関係が浮かび上がっている。



