私はさまざまなAIメモリシステムが性能をどのように評価しているかを見直していて、システム間比較に関する根本的な問題に気づきました。
多くのシステムはLOCOMO(Maharana et al., ACL 2024)でベンチマークしますが、評価手法は大きく異なります。LOCOMOの公式指標(Token-Overlap F1)ではGPT-4に全コンテキストで32.1%、人間の性能で87.9%が示されます。しかし、メモリシステムの開発者たちは、元のF1指標ではなく、検索精度やキーワード一致といった独自の評価基準を用いて60〜67%のスコアを報告しています。
各システムが測定しているものが異なるため、得られるスコアは直接比較できません——それにもかかわらず、しばしば同列に並べて提示されています。
他にもこの問題に気づいた人はいますか?標準化された採点方法がない場合、メモリシステムをどのように評価していますか?
[リンク] [コメント]



