MemAwareベンチマークは、RAGベースのエージェントのメモリが暗黙の文脈に失敗することを示す — メモリなしでは検索スコア2.8%対0.8%

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MemAwareは、ユーザーの質問に一致するキーワードが含まれない(暗黙の文脈)場合に、RAGベースのエージェントメモリが関連する過去の文脈を取得できるかどうかに焦点を当てたベンチマークを提案する。
  • 難易度が3段階の合計900問にわたって、ローカルBM25+ベクタ検索による検索精度はハード層で崩壊し、0.7%にまで低下する。これは実質的にメモリを使わない場合と同等である。
  • このベンチマークは、ドメインをまたぐ推論が必要なとき(例:車関連のニーズに対してロイヤリティ割引の利用を尋ねられた際に、ユーザーがTargetで買い物をしていることを思い出すといったケース)には、検索ベースのメモリが失敗することを示している。
  • MemAwareのデータセットと評価ハーネスはMITのもとでオープンソースで公開されており、チームは自分たちのメモリシステムを組み込み、暗黙文脈の想起における性能を測定できる。

既存のメモリベンチマークが一切テストしていない何かをテストするベンチマークを作りました。つまり、ユーザーがそれについて聞いていないときに、AIエージェントは関連する過去の文脈を提示できるのか?

ほとんどのエージェント向けメモリシステムはこのように動きます。ユーザーが何かを尋ねる → エージェントがメモリを検索する → 結果を取得する → 回答する。これは「データベースの意思決定は何だった?」とユーザーが尋ねる場合にはとても上手くいきます。では、次はどうでしょう:

  • ユーザー:「新しいサービスのためにデータベースをセットアップして」→ エージェントはあなたが先月PostgreSQLを選んだことを思い出すべき
  • ユーザー:「私のトランスクリプトは却下された。私の名前で記録がない」→ エージェントはあなたが名前を変えたことを思い出すべき
  • ユーザー:「8:30のミーティングのために、何時にアラームをセットすべき?」→ エージェントはあなたの45分の通勤時間を思い出すべき

これらには、検索で一致するようなキーワードがありません。MemAwareは、難易度3段階で、こうした質問を900問テストします。

ローカルBM25 + ベクター検索での結果:

  • Easy(キーワードの重なり):6.0%の精度
  • Medium(同一ドメイン):3.7%
  • Hard(クロスドメイン):0.7% — 言ってしまえば、メモリがまったくない場合と文字通り同じ

Hardのティアは、実質的に検索では解けません。「Ford Mustangにはエアフィルターが必要。どこで私のロイヤルティ割引を使える?」→ ユーザーがTargetで買い物をしていることを思い出すべきです。自動車の整備と食料品店のロイヤルティプログラムを結びつける検索クエリは存在しません。

データセット+ハーネスはオープンソース(MIT)です。自分のメモリシステムを組み込み、テストできます:https://github.com/kevin-hs-sohn/memaware

人々が試しているアプローチが気になります。クエリごとの取得というより、ユーザーの全履歴を事前に読み込んだ何らかの概観が必要なのでは、という感じですね。

submitted by /u/Salty-Asparagus-4751
[link] [comments]
広告