WMB-100K – 100Kターン規模に対応したAIメモリシステムのオープンソース・ベンチマーク

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • AIメモリシステムの評価が従来は小規模(数百〜約1,000ターン)に限られがちだった点を踏まえ、WMB-100Kは100,000ターン規模でのベンチマークを提示している。
  • 本ベンチマークには3,134問と5段階の難易度に加え、「誤った自信(false memory)」を検知するプローブも含まれ、間違いの深刻度に焦点を当てている。
  • データセットはオープンに提供され、実行コストは約$0.07とされ、手軽に検証・比較できる設計になっている。
  • さまざまなAIメモリ関連システムの性能比較を促すことを目的としており、GitHubリンクがコメント欄で共有されている。
  • 「I don't know」は許容されても、確信を持って誤情報を返す問題を評価に組み込むことで、実運用に近いテスト観点を導入している。
WMB-100K – 100KターンでのAIメモリシステムのためのオープンソースベンチマーク

AIメモリシステムがこれまで、ほんの小さな規模でしかテストされていないことについて考えていました。LOCOMOは600ターン、LongMemEvalはおよそ1,000です。でも実際の利用は、そんな感じではありません。

WMB-100Kは100,000ターンをテストし、難易度5段階にわたって3,134問を用意しています。さらに誤った記憶のプローブも含みます。 「分からない」は問題ありませんが、自信満々に間違った情報を提示するのは本当の課題だからです。

データセットは同梱されており、実行コストは約0.07ドルです。

さまざまなシステムがどれくらいの性能を出すのか気になります。GitHubリンクはコメント欄にあります。

提出者: /u/Efficient_Joke3384
[リンク] [コメント]