AI Navigate

LMEB: 長期記憶埋め込みベンチマーク

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • LMEBは、断片化された、文脈依存的で、時間的に離れた情報を含む長期的なメモリ検索タスクを評価するために設計された新しいベンチマークです。
  • このフレームワークは、エピソード記憶、対話、意味記憶、手続き記憶の4つの記憶タイプにまたがる22データセットと193のゼロショット検索タスクを、AI生成データと人間が注釈したデータの双方を用いて横断します。
  • 15の埋め込みモデルの評価から、LMEBは挑戦的であり、より大きなモデルが必ずしも小さなモデルを上回るとは限らず、LMEBは既存のMTEBベンチマークと直交しています。
  • 標準化され、再現可能な評価フレームワークを提供することで、LMEBは長期的で文脈依存の検索のための記憶埋め込みの進歩を促進し、従来のパッセージ検索からの一般化のギャップを浮き彫りにすることを目指します。

要旨:メモリ埋め込みは、OpenClaw のようなメモリ拡張システムにとって極めて重要ですが、現在のテキスト埋め込みベンチマークでは評価が十分には進んでおらず、従来のパッセージ検索に狭く焦点を当てており、断片化された文脈依存かつ時間的に離れた情報を含む長期的なメモリ検索タスクを扱うモデルの能力を評価できていません。これを解決するために、長期的なメモリ埋め込みベンチマーク(LMEB)を導入します。これは、複雑で長期的なメモリ検索タスクを扱う埋め込みモデルの能力を評価する総合的なフレームワークです。LMEB は、エピソード、対話、意味的、手続き的の4つのメモリタイプにまたがり、22 のデータセットと193 のゼロショット検索タスクを網羅し、AI生成データと人間注釈データの両方を含みます。これらのメモリタイプは、抽象度のレベルと時間的依存性の点で異なり、現実世界が直面する多様な課題を反映した、メモリ検索の異なる側面を捉えます。私たちは、数億から百億パラメータに達する、広く用いられている15 の埋め込みモデルを評価します。結果は以下を示します。(1)LMEBは適切な難易度を提供します。(2)大きなモデルが必ずしもより良く機能するとは限りません。(3)LMEBとMTEBは直交性を示します。これは、分野が全てのメモリ検索タスクで卓越できる普遍的なモデルへと収束していないこと、従来のパッセージ検索の性能が長期的なメモリ検索へ一般化するとは限らないことを示唆しています。要約すると、標準化され再現可能な評価フレームワークを提供することで、LMEB はメモリ埋め込み評価の重要なギャップを埋め、長期的で文脈依存的なメモリ検索を扱うテキスト埋め込みのさらなる進歩を推進します。LMEB は https://github.com/KaLM-Embedding/LMEB で入手可能です。