プロジェクト・シャドウズ：『メモリを足せば解決』はエージェントを直さなかった

Reddit r/artificial / 2026/4/20

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

著者は、9人のエージェントが共有メモリ層を使って戦略作業を行うマルチエージェント「Shadows」を構築したと述べ、LongMemEvalでの想起性能が高い（recall_all@5が97%）ことを報告しています。
しかし、適切な記憶を取得できているにもかかわらずエージェントは誤答するため、「メモリを足す」だけではエージェントの推論失敗を解決できないことが示唆されています。
誤りの要因として、セッションをまたいだ集約の弱さ、いつ回答を控えるべきかの判断（abstain）の欠如、そしてユーザーの嗜好のうちどの側面を意図しているのかの解釈の難しさが挙げられています。
著者は、人は多くの場合実行の前にまずフィルタリングして本人確認／前提確認を行うのに対し、多くのLLMエージェントは直接実行へ飛びがちだと対比しています。
次の方向性として、アイデンティティとメモリとともにエージェントを移動・制御できるようにすることで、必要な事前フィルタリングのプロセスにより合致した振る舞いを目指すとしています。

Project Shadows: Turns out "just add memory" doesn't fix your agent

ここ数か月、Shadows というマルチエージェントシステムを構築してきました。戦略作業を行う9つのエージェントが、共有メモリ層を介して協力しています。

私の時間のほとんどは検索（retrieval）に費やしました。なぜなら、それがすべてのベンチマークで測られるものだからです。Mem0、MemPalace、Graphiti、どれも。

LongMemEval では recall_all@5 が97%でした。全体の正確さは73%です。

つまり、正しいメモリはそこにあります。それでもエージェントは間違った答えを選びます。セッションをまたいで集約できず、いつ棄権（abstain）すべきかも分からず、ユーザーが好みのどの側面を意図していたのかを当てにいってしまいます。

それは、私がずっと引っかかっていたある事柄と一致していました。ほとんどのLLMは、タスクを与えるとすぐに実行へ飛びつきます。人はそうしません。まずフィルタリングし、本当に正しい相手かを確認してから始めます。

次の方向性：自分自身のアイデンティティとメモリを伴って移動できるエージェント！

submitted by /u/MegaWa7edBas
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/20Dailyインサイトを見る →

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

春割キャンペーン実施中新年度の情報収集をサポートします

日経XTECH

プロジェクト・シャドウズ：『メモリを足せば解決』はエージェントを直さなかった

要点

💡 この記事が使われたインサイト

関連記事

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

春割キャンペーン実施中新年度の情報収集をサポートします

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

米アンソロピックがMythos発表に続き「Cowork」一般提供 「SaaSの死」再燃

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

春割キャンペーン実施中 新年度の情報収集をサポートします

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

春割キャンペーン実施中新年度の情報収集をサポートします