[D] AIメモリ・システムのベンチマーク比較が抱える問題——評価手法の違いでスコアが意味を失う

Reddit r/MachineLearning / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本投稿は、AIメモリ・ベンチマークを異なるシステム間で比較することが誤解を招くのは、標準化されたLOCOMOのスコアリング手法ではなく、各チームが異なる評価指標を用いているためだと主張している。
LOCOMOの公式な指標であるToken-Overlap F1は、（GPT-4や人間のベースラインなど）具体的な参照結果を提示する一方で、メモリ・システムの開発者は検索精度やキーワード一致などのカスタム基準によって、実質的に異なるスコアを報告することが多いと指摘している。
著者は、各ベンチマークが測定している性質が異なるため、並べて示されたスコアを直接比較可能だとは解釈できないと述べている。
本投稿は、広く受け入れられた標準化されたスコアリング手法が存在しない状況で、AIメモリ・システムをどのように評価すべきかについて議論を呼びかけている。

私はさまざまなAIメモリシステムが性能をどのように評価しているかを見直していて、システム間比較に関する根本的な問題に気づきました。

多くのシステムはLOCOMO（Maharana et al., ACL 2024）でベンチマークしますが、評価手法は大きく異なります。LOCOMOの公式指標（Token-Overlap F1）ではGPT-4に全コンテキストで32.1%、人間の性能で87.9%が示されます。しかし、メモリシステムの開発者たちは、元のF1指標ではなく、検索精度やキーワード一致といった独自の評価基準を用いて60〜67%のスコアを報告しています。

各システムが測定しているものが異なるため、得られるスコアは直接比較できません——それにもかかわらず、しばしば同列に並べて提示されています。

他にもこの問題に気づいた人はいますか？標準化された採点方法がない場合、メモリシステムをどのように評価していますか？

提出者 /u/Efficient_Joke3384
[リンク] [コメント]