プロジェクトは2026年3月時点でもLoCoMoに新しいスコアを提出し続けていますが、ベンチマークには致命的な欠陥があります。私たちは監査を行い、正解キーのうち6.4%が誤りであり、さらにLLMジャッジは意図的に間違った回答を最大63%受け入れることを確認しました。LongMemEval-Sは現代的なコンテキストウィンドウに完全に収まるため、メモリテストというよりコンテキストウィンドウテストに近いものになっています。以下が私たちの発見です。
LoCoMo
LoCoMo(Maharana et al., ACL 2024)は、最も広く引用されているメモリベンチマークの1つです。私たちはグラウンドトゥルースの体系的な監査を行い、1,540問中99件のスコアを壊す誤り(6.4%)を見つけました。これは、正解キーにおける幻覚的な事実、誤った日付計算、話者の取り違えなどです。
主な例:
- 正解キーには「Ferrari 488 GTB」とありますが、実際の会話では「this beauty」としか言っておらず、画像キャプションには「a red sports car(赤いスポーツカー)」と書かれています。車種モデルは内部の
queryフィールド(ストックフォトのアノテータ検索文字列)にのみ存在し、メモリシステムが取り込むことはありません。システムは、アクセスできない事実に対して採点されます。 - 木曜日の「Last Saturday(先週の土曜日)」=直前の土曜日です。正解キーは日曜日になっています。日付計算を正しく行ったシステムがペナルティを受けます。
- 24問で発言が誤った話者に帰属されています。話者追跡が正確なシステムは、正解キーと矛盾します。
完璧なシステムの理論上の最大スコアは約93.6%です。正解キー自体が誤っているすべての設問では不正解として扱われるためです。
LoCoMoはLLMジャッジ(gpt-4o-mini)を使って、ゴールデンアンサーに対して回答を採点します。私たちは逆境的なプロービングを実施しました。1,540問すべてについて、意図的に誤っているが曖昧で話題に即した回答を生成し、その後、公開されている評価で使われているのと同じジャッジと同じプロンプトで採点しました。ジャッジはそれらの62.81%を受け入れました。比較として、いくつかの公開済みシステムのスコアは、ほんの数ポイント(±)の差にとどまるものもあります。
特定の誤り(誤った名前、誤った日付)は、約89%の確率で見抜かれます。しかし、話題は合っているがあらゆる細部を落としているような曖昧な回答は、ジャッジが2/3近い頻度で合格を与えます。これは、弱いリトリーバルのまさに典型的な失敗モードです。正しい会話には到達するが、具体的な情報を何も抽出できていない。それでもベンチマークはそれを報酬してしまいます。
また、標準化された評価パイプラインも存在しません。各システムはそれぞれ独自の取り込み方法(システム設計の違いによって要求されうる、という議論はあります)、独自の回答プロンプト、時にはまったく異なるモデルを使います。そのうえで、それらのスコアが、まるで「同じ条件のリンゴ同士」であるかのように表の中で比較されます。複数の独立した研究者が、公開されているスコアを再現できないことを記録しています(EverMemOS #73、Mem0 #3944、Zep scoring bug)。
全99件の誤りをすべて記載した完全な監査(方法論、再現可能なスクリプトを含む): locomo-audit
LongMemEval
LongMemEval-S(Wang et al., 2024)も、しばしば引用される別のベンチマークです。問題は異なりますが、同様に根本的です。それは、あまり良いメモリテストではありません。
LongMemEval-Sは、質問ごとに約115Kトークンのコンテキストを使用します。現在のモデルは200K〜1Mトークンのコンテキストウィンドウを持っています。各質問に対応するコーパス全体は、コンテキストウィンドウに余裕を持って収まります。
Mastraのresearchが、その動きをはっきり示しています。彼らのフルコンテキストのベースラインは、gpt-4o(128Kのコンテキストウィンドウを持ち、115Kのすぐ端に位置する)で60.20%でした。一方、観測メモリシステムは、同じモデルで84.23%を達成しました。主に、コンテキストを圧縮してより快適に収まるようにしたことによります。ポイントは、Mastraのアプローチが悪いということではなく、このベンチマークが「長期メモリをどれだけうまく扱えるか」ではなく「コンテキストウィンドウをどれだけうまく管理できるか」を測っているということです。モデルのコンテキストウィンドウが大きくなるほど、フルコンテキストのベースラインは上がり続け、ベンチマークの意味は薄れていきます。
LongMemEvalは、モデルが115Kトークンの中から針を見つけられるかどうかをテストします。これは測る価値のあることですが、測っているのは長期メモリではなく、コンテキストウィンドウのパフォーマンスです。
LoCoMo-Plus
LoCoMo-Plus(Li et al., 2025)は、本当に興味深い新しいカテゴリを追加します。それは、事実の想起ではなく暗黙の推論をテストする「cognitive(認知)」問題です。これらは、意図的に意味的な断絶を持たせたキュー-トリガーペアを使います。システムは、語彙的な重なりが明白でない状態で、セッションをまたいで「I just adopted a rescue dog(保護犬を引き取ったばかりだ)」(cue) を「what kind of pet food should I buy?(どんなペットフードを買えばいい?)」(trigger) に結び付けなければなりません。コンセプト自体は筋が通っており、実際のギャップを埋めています。
問題点:
- それは、上記で記録された1,540の元のLoCoMo設問をそのまま継承しています。99件のスコアを壊す誤りも含まれます。壊れた正解キーの6.4%は依然としてそこにあり、依然としてシステムを誤って採点します。
- 改善されたジャッジ手法(タスク固有のプロンプト、3段階の採点、0.80以上の人間-LLM一致)は、新しい認知問題でのみ検証されました。元の5カテゴリは、再検証なしで同じ壊れたグラウンドトゥルースを引き続き使用しています。
- udgeモデルはデフォルトでgpt-4o-miniです。
- 同様にパイプラインの標準化が欠けています。各システムは依然として、それぞれ独自の取り込み、独自のプロンプト、独自のモデルを持ち込んでいます。
新しい認知カテゴリは注目する価値があります。残りは、依然として上で説明した同じ問題を引き継いでいます。
実際に何が機能するだろう?
私たちが見つけたすべてに基づいて、有用なメモリベンチマークに必要だと考えるものは次のとおりです:
コンテキストウィンドウよりも十分に大きいコーパス。取り込みにとてつもない量の時間がかかるほどではないが、実際に検索(リトリーブ)を行う必要があるほど大きくすること。すべてがコンテキストに収まってしまうなら、それは良いメモリテストではありません。BEAM(arxiv 2510.27246)は、最大1,000万トークンの会話でこの方向へ押し進めていますが、それでも独自の制約があります。
現在のモデル。多くの評価はいまだにジャッジとしてgpt-4o-miniを使っています。モデルの能力は、テストされるシステムにとっても、そしてそれらを採点するジャッジにとっても重要です。
本当に正誤を判別できるジャッジ。意図的に間違った回答の63%をジャッジが受け入れてしまうなら、そのベンチマークは自分たちが思っているものを測っていません。タスク固有の評価基準(ルーブリック)が役立ちます。より強力なジャッジモデルも助けになります。よりよく検証されたグラウンドトゥルースも重要です。
現実的な取り込み。実際の知識は会話を通じて構築されます。会話には、ターン、訂正、更新、そして時間の経過とともに形成される関係性が含まれます。一度きりで単純な埋め込み(embedding)を作るテキストの投げ込みではありません。ベンチマークが「知識がシステムに入ってくる仕組み」をテストせず、現実世界の利用を反映しないなら、それは非現実的なシナリオを測っているだけです。
標準化されたパイプライン。少なくとも、すべての変数の完全な開示が必要です。取り込み方法(該当する場合はプロンプト)、埋め込みモデル、回答プロンプト、ジャッジモデル、実行回数、標準偏差。これがなければ、公開されているスコア比較はほぼ意味を成しません。
検証済みの真の根拠。 解答キーのうち6.4%が誤っているなら、ベンチマークには、わずかなスコア差を解釈できないようなノイズの下限(ノイズフロア)があることになります。Northcutt ら, NeurIPS 2021 は、10の主要ベンチマークにわたって平均3.3%のラベル誤りがあることを見いだし、これらの誤りがモデルのランキングを不安定化させる可能性があることを示しました。LoCoMoはそれをほぼ2倍上回っています。
私たちは、特に長期記憶に焦点を当てた新しいベンチマークの枠組みを開発しようとしています。ご提案を歓迎します。
[link] [comments]