Memori: 効率的で文脈認識型のLLMエージェントのための永続メモリ層

arXiv cs.LG / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • Memoriは、メモリを構造化された表現として格納することにより、ベンダーロックインと大規模なプロンプト注入を回避する、LLM非依存の永続メモリ層を提供します。
  • 高度な拡張パイプラインを用いて、非構造化対話を正確な検索と一貫した推論のための、コンパクトなセマンティック・トリプルおよび会話要約へ変換します。
  • LoCoMoベンチマークでは、Memoriは81.95%の精度を達成し、クエリあたり約1,294トークンを使用します。これは全文脈の約5%に相当し、大幅な効率向上をもたらします。
  • このアプローチは、競合手法より約67%少ないトークン数、全文脈手法に対して20倍超の節約を実現しており、コスト削減を強調します。
  • この研究は、LLMエージェントの効果的なメモリは単にコンテキストウィンドウを拡張するだけではなく、構造化された表現に依存することを主張し、複数セッションの対話にわたるスケーラブルな展開を可能にします。

概要: 大規模言語モデル(LLMs)が自律エージェントへと進化するにつれ、APIレイヤーでの永続的なメモリは、LLMs間およびマルチセッションの相互作用全体にわたって文脈認識型の挙動を可能にするために不可欠です。既存のアプローチはベンダーロックインを強制し、生の対話を大量にプロンプトへ注入することに依存しており、トークンコストが高く、性能が低下します。
Memori を導入します。これは LLM に依存しない永続メモリ層で、メモリをデータ構造化の問題として扱います。その Advanced Augmentation パイプラインは、非構造化対話をコンパクトなセマンティック・トリプルと会話要約に変換し、正確な検索と一貫した推論を可能にします。
LoCoMo ベンチマークで評価したところ、Memori は 81.95% の精度を達成し、既存のメモリシステムを上回りつつ、クエリあたりわずか 1,294 トークン(全文脈の約5%)を使用します。
これにより、コストが大幅に削減され、競合のアプローチよりトークンが67%少なく、全文脈手法と比較して20倍以上の節約を達成します。
これらの結果は、LLMエージェントにおける有効なメモリがより大きな文脈ウィンドウよりも構造化された表現に依存していることを示しており、スケーラブルでコスト効率の高いデプロイを可能にします。