[D] LoCoMoを監査した：正解キーの6.4%が誤りで、判定者は意図的に誤った回答の最大63%を受け入れる

Reddit r/MachineLearning / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

LoCoMoのロングタームメモリベンチマークを監査したところ、幻覚的な事実、誤った時制（時間）推論、話者帰属の誤りなどを含め、正解キーの6.4%が誤っていることが分かりました。
いくつかの例では、評価の不一致が示されます。正解キーが参照している情報が、システムがアクセスできない非取り込み（non-ingest）メタデータ（例：内部クエリフィールド）にのみ存在するため、アクセス可能なはずのない事実に対してシステムが採点されてしまいます。
監査では、LoCoMoのGPT-4o-miniベースのLLM判定者をテストし、特に回答が曖昧で具体的な詳細をすべて省略している場合には、意図的に誤っているが話題的に隣接した回答の最大62.81%を受け入れ得ることが判明しました。
「完璧」なシステムの理論上の上限は約93.6%であり、ベンチマーク精度は本質的に、グラウンドトゥルースの汚染によって上限が設けられていることを示唆します。
記事では、提案されている代替ベンチマークLongMemEval-Sは、各設問のコーパスが現代のコンテキストウィンドウ内に完全に収まるため、「真のメモリ」テストとしては不十分であり、メモリというよりもコンテキストウィンドウ能力への比重が移ってしまうと主張しています。

2026年3月現在でも、LoCoMoでは新しいスコアが提出され続けています。私たちは監査を行い、正答キーのうち6.4%が誤りであり、さらにLLMジャッジは、意図的に間違った回答の最大63%を受け入れてしまうことを確認しました。代替としてLongMemEval-Sがよく挙げられますが、各設問のコーパスは現代のコンテキストウィンドウに完全に収まってしまうため、メモリというよりコンテキストウィンドウのテストになっています。以下が私たちの調査結果です。

LoCoMo

LoCoMo（Maharana et al., ACL 2024）は、最も広く引用されている長期メモリのベンチマークの1つです。私たちはグラウンドトゥルースを体系的に監査し、1,540問のうち99件のスコアを壊すエラー（6.4%）を特定しました。エラーのカテゴリには、正答キー内の幻覚的事実、誤った時間推論、話者帰属エラーなどが含まれます。

例：

正答キーでは「Ferrari 488 GTB」と指定されていますが、出典となる会話には「this beauty（この素晴らしいもの）」しかなく、画像キャプションには「a red sports car（赤いスポーツカー）」とあります。車種モデルは、メモリシステムが取り込まない内部のqueryフィールド（ストックフォトのアノテータ検索文字列）にのみ存在します。システムは、アクセスできない事実に対して評価されます。
木曜日の「Last Saturday（先週の土曜日）」は、直前の土曜日に解決されるべきです。正答キーは日曜日だとしています。日付の計算を正しく行うシステムがペナルティを受けます。
24問で、発言は誤った話者に帰属されています。話者の追跡が正確なシステムは、正答キーと矛盾するはずです。

完全なシステムの理論上の最大スコアは、およそ93.6%です。

また、LLMジャッジもテストしました。LoCoMoは、正解の参照（golden reference）に対して回答を採点するためにgpt-4o-miniを使っています。私たちは、全1,540問について、意図的に間違っているが話題として近い回答を生成し、公開評価で使われているのと同じジャッジ設定とプロンプトで採点しました。ジャッジはそれらの62.81%を受け入れました。具体的な事実誤り（名前の誤り、日付の誤り）は、約89%の確率で検出されました。ところが、正しいトピックを特定できているものの、あらゆる具体的な詳細を欠いた曖昧な回答は、ほぼ2/3の確率で通過しました。これは、弱い検索の典型的な失敗モードです。つまり、正しい会話を見つけてはいるが、そこから具体的な情報を何も抽出できない状態であり、このベンチマークはそれを報酬としてしまっています。

標準化された評価パイプラインも存在しません。各システムはそれぞれ独自の取り込み方法（おそらくアーキテクチャの違いを踏まえて必要ではありますが）、独自の回答生成プロンプト、そして場合によってはまったく別のモデルを使用します。その後、共通の手法があるかのように、スコアが表で比較されます。複数の独立した研究者が、公開された結果を再現できないという問題を記録しています（EverMemOS #73、Mem0 #3944、Zep採点の不一致）。

全99件のエラーを詳細に記録した完全な監査、手法、再現可能なスクリプト：locomo-audit

LongMemEval

LongMemEval-S（Wang et al., 2024）も、もう一つの頻繁に引用されるベンチマークです。問題は異なりますが、同じく根本的です。つまり、コンテキストウィンドウの容量からメモリ能力を効果的に切り分けできていません。

LongMemEval-Sは、各設問につきおよそ115Kトークンのコンテキストを使います。現在のモデルは、200K〜1Mトークンのコンテキストウィンドウに対応しています。テストの全コーパスは、ほとんどの現行モデルにおいて単一のコンテキストウィンドウに収まります。

Mastraの研究がこれを示しています。彼らのフルコンテキストのベースラインは、gpt-4o（128Kのコンテキストウィンドウ、115Kしきい値に近い）で60.20%でした。一方で、観察メモリシステムは同じモデルで84.23%を達成しましたが、これは主にコンテキストを圧縮して、より扱いやすく収めたことによります。ベンチマークが測っているのは、長期メモリの検索ではなく、コンテキストウィンドウの管理の効率です。コンテキストウィンドウが今後も拡大していけば、フルコンテキストのベースラインは伸び続け、ベンチマークは識別する力を失っていくでしょう。

LongMemEval-Sは、モデルが115Kトークン以内のどこかに情報を見つけられるかを試します。これは測定するのに有用な能力ですが、メモリテストではなくコンテキストウィンドウのテストです。

LoCoMo-Plus

LoCoMo-Plus（Li et al., 2025）は、実に興味深い新しいカテゴリを導入します。それは「事実の想起」ではなく「暗黙の推論」をテストする「認知（cognitive）」問題です。これらは、意図的に意味的な断絶があるキュー（合図）とトリガーのペアを使います。システムは、語彙の重なりがないまま、セッションをまたいで「I just adopted a rescue dog（私は保護犬を迎え入れたばかりだ）」（cue）を「what kind of pet food should I buy?（どんなペットフードを買うべき？）」（trigger）へと結びつけなければなりません。コンセプトは筋が通っており、既存の評価にある実際のギャップを埋めています。

問題点：

これは、上で記録した99件のスコアを壊すエラーを含め、1,540個の元のLoCoMoの設問をそのまま変更せず継承しています。
改善された採点手法（タスク固有のプロンプト、3段階の採点、0.80以上の人手-LLM一致）は、新しい認知問題でのみ検証されました。元の5カテゴリは、再検証なしで同じ壊れたグラウンドトゥルースのまま維持されています。
ジャッジモデルのデフォルトはgpt-4o-miniです。
同様に、パイプラインの標準化が欠けています。

新しい認知カテゴリは、有意義な貢献です。継承された評価基盤は、上で述べた問題点をそのまま保持しています。

長期メモリ評価を意味のあるものにするための要件

この分析に基づき、長期メモリシステムを意味のある形で評価できるベンチマークには、いくつかの要件があると考えられます：

コーパスサイズはコンテキストウィンドウを超える必要がある。 テスト全体がコンテキストに収まってしまうなら、検索は任意になり、ベンチマークはメモリシステムをコンテキストウィンドウ管理から区別できません。BEAMは、最大1,000万トークン規模の会話でこの方向へ進んでいますが、それでも独自の課題を導入しています。
評価は現行世代のモデルを用いる必要がある。 ジャッジとしてのgpt-4o-miniは、採点精度に上限（天井）を作ります。テストされるシステム側も、それらを評価するジャッジ側も、現行のモデル能力を反映しているべきです。
ジャッジの信頼性は敵対的に検証される必要がある。 ジャッジが意図的に間違った回答の63%を受け入れるなら、その閾値未満のスコア差は解釈不能です。タスク固有のルーブリック、より強力なジャッジモデル、敵対的に検証されたグラウンドトゥルースのいずれも必要です。
取り込み（ingestion）は現実的な利用を反映するべき。 実アプリケーションでの知識は会話を通じて構築されます。そこにはターン、修正、時間的参照、そして関係性の進展が含まれます。静的テキストの単発取り込みをテストするベンチマークでは、持続的なメモリという核心的な課題を取り逃がします。
評価パイプラインは標準化するか、完全に開示する必要がある。 少なくとも：取り込み方法（適用可能ならプロンプトも）、埋め込みモデル、回答生成プロンプト、ジャッジモデル、ジャッジプロンプト、実行回数、標準偏差です。これがなければ、公開された表におけるシステム間の比較は意味を持ちません。
グラウンドトゥルースは検証されるべき。 正答キーの6.4%という誤り率は、スコア差を解釈不能にしてしまうノイズの下限（ノイズフロア）を作ります。Northcutt et al. (NeurIPS 2021)は、10の主要MLベンチマークにおける平均ラベル誤り率が3.3%であることを見出し、これらの誤りがモデルのランキングを不安定にし得ることを示しました。LoCoMoの誤り率は、そのベースラインのほぼ2倍です。