既存のメモリベンチマークが一切テストしていない何かをテストするベンチマークを作りました。つまり、ユーザーがそれについて聞いていないときに、AIエージェントは関連する過去の文脈を提示できるのか?
ほとんどのエージェント向けメモリシステムはこのように動きます。ユーザーが何かを尋ねる → エージェントがメモリを検索する → 結果を取得する → 回答する。これは「データベースの意思決定は何だった?」とユーザーが尋ねる場合にはとても上手くいきます。では、次はどうでしょう:
- ユーザー:「新しいサービスのためにデータベースをセットアップして」→ エージェントはあなたが先月PostgreSQLを選んだことを思い出すべき
- ユーザー:「私のトランスクリプトは却下された。私の名前で記録がない」→ エージェントはあなたが名前を変えたことを思い出すべき
- ユーザー:「8:30のミーティングのために、何時にアラームをセットすべき?」→ エージェントはあなたの45分の通勤時間を思い出すべき
これらには、検索で一致するようなキーワードがありません。MemAwareは、難易度3段階で、こうした質問を900問テストします。
ローカルBM25 + ベクター検索での結果:
- Easy(キーワードの重なり):6.0%の精度
- Medium(同一ドメイン):3.7%
- Hard(クロスドメイン):0.7% — 言ってしまえば、メモリがまったくない場合と文字通り同じ
Hardのティアは、実質的に検索では解けません。「Ford Mustangにはエアフィルターが必要。どこで私のロイヤルティ割引を使える?」→ ユーザーがTargetで買い物をしていることを思い出すべきです。自動車の整備と食料品店のロイヤルティプログラムを結びつける検索クエリは存在しません。
データセット+ハーネスはオープンソース(MIT)です。自分のメモリシステムを組み込み、テストできます:https://github.com/kevin-hs-sohn/memaware
人々が試しているアプローチが気になります。クエリごとの取得というより、ユーザーの全履歴を事前に読み込んだ何らかの概観が必要なのでは、という感じですね。
[link] [comments]




