MemMachine:パーソナライズされたAIエージェントのための、真値を保持するメモリシステム

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MemMachine は、LLM エージェントの複数セッションにわたるパーソナライズと長期推論を支えるための「ground-truth(真値)を保つ」メモリシステムとして提案され、会話エピソードを丸ごと保存し、損失的な LLM 抽出を減らす設計が特徴です。
  • シングルターンの文脈だけでなく、関連証拠が複数ターンにまたがるケースでも思い出し精度を高めるため、文脈付きリトリーバル(nucleus matches を周辺文脈で拡張)を採用しています。
  • ベンチマークでは LoCoMo で 0.9169(gpt4.1-mini)や LongMemEvalS で 93.0% 精度などの結果を示し、リトリーバル段の最適化(深さ調整・コンテキスト整形・検索プロンプト設計・クエリバイアス補正)が、単純な ingestion(分割など)改善より効いたと報告しています。
  • さらに、想定ノイズ下での HotpotQA-hard(93.2%)や WikiMultiHop(92.6%)に向けて、Retrieval Agent が問い合わせを直取得・分解・反復型チェーンのいずれかに適応ルーティングする枠組みを組み合わせています。
  • コスト面でも Mem0 比で入力トークンを約 80% 削減し、最適プロンプトとより小さいモデル(例:GPT-5-mini)で GPT-5 を上回る効率性を示しています。

Abstract

大規模言語モデル(LLM)エージェントには、パーソナライズ、事実の連続性、長期的な推論を維持するために永続的なメモリが必要である。しかし、標準的なコンテキストウィンドウや検索拡張生成(RAG)パイプラインは、複数セッションにわたる対話では劣化する。私たちはMemMachineを提示する。これは、会話エピソード全体を保存し、損失の大きいLLMベースの抽出を減らすことによって、真実(ground-truth)を保持するアーキテクチャのもとで、短期・長期のエピソード記憶・プロフィール記憶を統合するオープンソースのメモリシステムである。MemMachineは、文脈付き検索を用いることで、周辺文脈とともにnucleus一致を拡張し、関連する証拠が複数の対話ターンにまたがる場合の想起(recall)を改善する。ベンチマークを通じてMemMachineは、精度と効率のバランスにおいて強力な結果を達成している。LoCoMoではgpt4.1-miniを用いて0.9169に到達する。LongMemEvalS(ICLR 2025)では、6次元のアブレーションにより93.0パーセントの精度を得ており、検索段階の最適化――検索深さの調整(+4.2パーセント)、コンテキストのフォーマット(+2.0パーセント)、検索プロンプト設計(+1.8パーセント)、クエリバイアス補正(+1.4パーセント)――が、文分割(sentence chunking)(+0.8パーセント)などの取り込み段階の改善を上回る。最適化されたプロンプトと組み合わせたGPT-5-miniはGPT-5を2.6パーセント上回り、最も費用対効果の高い構成となる。Mem0と比較すると、MemMachineは同等の条件下で入力トークンをおよそ80パーセント削減する。付随するRetrieval Agentは、直接検索、並列分解、または反復的なクエリチェーン戦略の間で、クエリを適応的にルーティングし、ランダムノイズ条件下でHotpotQA-hardに対して93.2パーセント、WikiMultiHopに対して92.6パーセントを達成する。これらの結果は、エピソードの真実の根拠を保持しつつ、適応的検索を重ねることで、パーソナライズされたLLMエージェントに対して堅牢で効率的な長期メモリが得られることを示している。

MemMachine:パーソナライズされたAIエージェントのための、真値を保持するメモリシステム | AI Navigate