LoCoMoを監査したところ、模範解答の6.4%が誤りで、意図的に間違えた回答の最大63%をジャッジが受理することが判明

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

LoCoMoメモリベンチマークの監査により、模範解答（answer key）の6.4%に、スコアを破壊しうる誤りが含まれていることが分かりました。具体的には、幻覚的な事実、誤った日付計算、話者の取り違えなどです。
いくつかの誤りの種類は、評価対象となる「採点されるべきもの」と、実際に会話および画像メタデータに存在する内容との間で不整合を生みます（例：注釈者／内部フィールドにしか登場しないanswer-keyのエンティティ）。
すべての質問に対して、意図的に間違えているものの曖昧で話題に沿った回答を生成する敵対的プローブを用いたところ、報告されたLLMジャッジは最大62.81%を受理しました。これは、採点手法が重要な詳細の省略に対して報酬を与えうることを示しています。
著者らは、LoCoMoは真のメモリテストというより、現代的なコンテキストウィンドウ能力のテストとして機能していると主張します。長いコンテキスト入力が必要な情報を完全にカバーできてしまうためです。
ベンチマークには標準化された評価パイプラインが欠けており、システム間で公開スコアの比較可能性が低くなっています。これは、取り込み（ingestion）方法やプロンプト、さらにはジャッジモデルの違いによるものです。

プロジェクトは2026年3月時点でもLoCoMoに新しいスコアを提出し続けていますが、ベンチマークには致命的な欠陥があります。私たちは監査を行い、正解キーのうち6.4%が誤りであり、さらにLLMジャッジは意図的に間違った回答を最大63%受け入れることを確認しました。LongMemEval-Sは現代的なコンテキストウィンドウに完全に収まるため、メモリテストというよりコンテキストウィンドウテストに近いものになっています。以下が私たちの発見です。

LoCoMo

LoCoMo（Maharana et al., ACL 2024）は、最も広く引用されているメモリベンチマークの1つです。私たちはグラウンドトゥルースの体系的な監査を行い、1,540問中99件のスコアを壊す誤り（6.4%）を見つけました。これは、正解キーにおける幻覚的な事実、誤った日付計算、話者の取り違えなどです。

主な例:

正解キーには「Ferrari 488 GTB」とありますが、実際の会話では「this beauty」としか言っておらず、画像キャプションには「a red sports car（赤いスポーツカー）」と書かれています。車種モデルは内部のqueryフィールド（ストックフォトのアノテータ検索文字列）にのみ存在し、メモリシステムが取り込むことはありません。システムは、アクセスできない事実に対して採点されます。
木曜日の「Last Saturday（先週の土曜日）」＝直前の土曜日です。正解キーは日曜日になっています。日付計算を正しく行ったシステムがペナルティを受けます。
24問で発言が誤った話者に帰属されています。話者追跡が正確なシステムは、正解キーと矛盾します。

完璧なシステムの理論上の最大スコアは約93.6%です。正解キー自体が誤っているすべての設問では不正解として扱われるためです。

LoCoMoはLLMジャッジ（gpt-4o-mini）を使って、ゴールデンアンサーに対して回答を採点します。私たちは逆境的なプロービングを実施しました。1,540問すべてについて、意図的に誤っているが曖昧で話題に即した回答を生成し、その後、公開されている評価で使われているのと同じジャッジと同じプロンプトで採点しました。ジャッジはそれらの62.81%を受け入れました。比較として、いくつかの公開済みシステムのスコアは、ほんの数ポイント（±）の差にとどまるものもあります。

特定の誤り（誤った名前、誤った日付）は、約89%の確率で見抜かれます。しかし、話題は合っているがあらゆる細部を落としているような曖昧な回答は、ジャッジが2/3近い頻度で合格を与えます。これは、弱いリトリーバルのまさに典型的な失敗モードです。正しい会話には到達するが、具体的な情報を何も抽出できていない。それでもベンチマークはそれを報酬してしまいます。

また、標準化された評価パイプラインも存在しません。各システムはそれぞれ独自の取り込み方法（システム設計の違いによって要求されうる、という議論はあります）、独自の回答プロンプト、時にはまったく異なるモデルを使います。そのうえで、それらのスコアが、まるで「同じ条件のリンゴ同士」であるかのように表の中で比較されます。複数の独立した研究者が、公開されているスコアを再現できないことを記録しています（EverMemOS #73、Mem0 #3944、Zep scoring bug）。

全99件の誤りをすべて記載した完全な監査（方法論、再現可能なスクリプトを含む）: locomo-audit

LongMemEval

LongMemEval-S（Wang et al., 2024）も、しばしば引用される別のベンチマークです。問題は異なりますが、同様に根本的です。それは、あまり良いメモリテストではありません。

LongMemEval-Sは、質問ごとに約115Kトークンのコンテキストを使用します。現在のモデルは200K〜1Mトークンのコンテキストウィンドウを持っています。各質問に対応するコーパス全体は、コンテキストウィンドウに余裕を持って収まります。

Mastraのresearchが、その動きをはっきり示しています。彼らのフルコンテキストのベースラインは、gpt-4o（128Kのコンテキストウィンドウを持ち、115Kのすぐ端に位置する）で60.20%でした。一方、観測メモリシステムは、同じモデルで84.23%を達成しました。主に、コンテキストを圧縮してより快適に収まるようにしたことによります。ポイントは、Mastraのアプローチが悪いということではなく、このベンチマークが「長期メモリをどれだけうまく扱えるか」ではなく「コンテキストウィンドウをどれだけうまく管理できるか」を測っているということです。モデルのコンテキストウィンドウが大きくなるほど、フルコンテキストのベースラインは上がり続け、ベンチマークの意味は薄れていきます。

LongMemEvalは、モデルが115Kトークンの中から針を見つけられるかどうかをテストします。これは測る価値のあることですが、測っているのは長期メモリではなく、コンテキストウィンドウのパフォーマンスです。

LoCoMo-Plus

LoCoMo-Plus（Li et al., 2025）は、本当に興味深い新しいカテゴリを追加します。それは、事実の想起ではなく暗黙の推論をテストする「cognitive（認知）」問題です。これらは、意図的に意味的な断絶を持たせたキュー-トリガーペアを使います。システムは、語彙的な重なりが明白でない状態で、セッションをまたいで「I just adopted a rescue dog（保護犬を引き取ったばかりだ）」(cue) を「what kind of pet food should I buy?（どんなペットフードを買えばいい？）」(trigger) に結び付けなければなりません。コンセプト自体は筋が通っており、実際のギャップを埋めています。

問題点:

それは、上記で記録された1,540の元のLoCoMo設問をそのまま継承しています。99件のスコアを壊す誤りも含まれます。壊れた正解キーの6.4%は依然としてそこにあり、依然としてシステムを誤って採点します。
改善されたジャッジ手法（タスク固有のプロンプト、3段階の採点、0.80以上の人間-LLM一致）は、新しい認知問題でのみ検証されました。元の5カテゴリは、再検証なしで同じ壊れたグラウンドトゥルースを引き続き使用しています。
udgeモデルはデフォルトでgpt-4o-miniです。
同様にパイプラインの標準化が欠けています。各システムは依然として、それぞれ独自の取り込み、独自のプロンプト、独自のモデルを持ち込んでいます。

新しい認知カテゴリは注目する価値があります。残りは、依然として上で説明した同じ問題を引き継いでいます。

実際に何が機能するだろう？

私たちが見つけたすべてに基づいて、有用なメモリベンチマークに必要だと考えるものは次のとおりです:

コンテキストウィンドウよりも十分に大きいコーパス。取り込みにとてつもない量の時間がかかるほどではないが、実際に検索（リトリーブ）を行う必要があるほど大きくすること。すべてがコンテキストに収まってしまうなら、それは良いメモリテストではありません。BEAM（arxiv 2510.27246）は、最大1,000万トークンの会話でこの方向へ押し進めていますが、それでも独自の制約があります。
現在のモデル。多くの評価はいまだにジャッジとしてgpt-4o-miniを使っています。モデルの能力は、テストされるシステムにとっても、そしてそれらを採点するジャッジにとっても重要です。
本当に正誤を判別できるジャッジ。意図的に間違った回答の63%をジャッジが受け入れてしまうなら、そのベンチマークは自分たちが思っているものを測っていません。タスク固有の評価基準（ルーブリック）が役立ちます。より強力なジャッジモデルも助けになります。よりよく検証されたグラウンドトゥルースも重要です。
現実的な取り込み。実際の知識は会話を通じて構築されます。会話には、ターン、訂正、更新、そして時間の経過とともに形成される関係性が含まれます。一度きりで単純な埋め込み（embedding）を作るテキストの投げ込みではありません。ベンチマークが「知識がシステムに入ってくる仕組み」をテストせず、現実世界の利用を反映しないなら、それは非現実的なシナリオを測っているだけです。
標準化されたパイプライン。少なくとも、すべての変数の完全な開示が必要です。取り込み方法（該当する場合はプロンプト）、埋め込みモデル、回答プロンプト、ジャッジモデル、実行回数、標準偏差。これがなければ、公開されているスコア比較はほぼ意味を成しません。
検証済みの真の根拠。 解答キーのうち6.4%が誤っているなら、ベンチマークには、わずかなスコア差を解釈できないようなノイズの下限（ノイズフロア）があることになります。Northcutt ら, NeurIPS 2021 は、10の主要ベンチマークにわたって平均3.3%のラベル誤りがあることを見いだし、これらの誤りがモデルのランキングを不安定化させる可能性があることを示しました。LoCoMoはそれをほぼ2倍上回っています。

私たちは、特に長期記憶に焦点を当てた新しいベンチマークの枠組みを開発しようとしています。ご提案を歓迎します。

投稿者: /u/PenfieldLabs
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/24Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LoCoMoを監査したところ、模範解答の6.4%が誤りで、意図的に間違えた回答の最大63%をジャッジが受理することが判明

要点

LoCoMo

LongMemEval

LoCoMo-Plus

実際に何が機能するだろう？

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer