プロジェクト・シャドウズ:『メモリを足せば解決』はエージェントを直さなかった

Reddit r/artificial / 2026/4/20

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、9人のエージェントが共有メモリ層を使って戦略作業を行うマルチエージェント「Shadows」を構築したと述べ、LongMemEvalでの想起性能が高い(recall_all@5が97%)ことを報告しています。
  • しかし、適切な記憶を取得できているにもかかわらずエージェントは誤答するため、「メモリを足す」だけではエージェントの推論失敗を解決できないことが示唆されています。
  • 誤りの要因として、セッションをまたいだ集約の弱さ、いつ回答を控えるべきかの判断(abstain)の欠如、そしてユーザーの嗜好のうちどの側面を意図しているのかの解釈の難しさが挙げられています。
  • 著者は、人は多くの場合実行の前にまずフィルタリングして本人確認/前提確認を行うのに対し、多くのLLMエージェントは直接実行へ飛びがちだと対比しています。
  • 次の方向性として、アイデンティティとメモリとともにエージェントを移動・制御できるようにすることで、必要な事前フィルタリングのプロセスにより合致した振る舞いを目指すとしています。
Project Shadows: Turns out "just add memory" doesn't fix your agent

ここ数か月、Shadows というマルチエージェントシステムを構築してきました。戦略作業を行う9つのエージェントが、共有メモリ層を介して協力しています。

私の時間のほとんどは検索(retrieval)に費やしました。なぜなら、それがすべてのベンチマークで測られるものだからです。Mem0、MemPalace、Graphiti、どれも。

LongMemEval では recall_all@5 が97%でした。全体の正確さは73%です。

つまり、正しいメモリはそこにあります。それでもエージェントは間違った答えを選びます。セッションをまたいで集約できず、いつ棄権(abstain)すべきかも分からず、ユーザーが好みのどの側面を意図していたのかを当てにいってしまいます。

それは、私がずっと引っかかっていたある事柄と一致していました。ほとんどのLLMは、タスクを与えるとすぐに実行へ飛びつきます。人はそうしません。まずフィルタリングし、本当に正しい相手かを確認してから始めます。

次の方向性:自分自身のアイデンティティとメモリを伴って移動できるエージェント!

submitted by /u/MegaWa7edBas
[link] [comments]