MemEvoBench：LLMエージェントにおけるメモリのミスエボリューションをベンチマークする

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、誤情報に繰り返しさらされることで生じる「メモリのミスエボリューション」（行動のドリフト）をLLMエージェントで測定するための新しいベンチマークMemEvoBenchを提案している。
実験は、敵対的なメモリ注入、ノイズのあるツール出力、バイアスを含むフィードバックを用いて長期的なメモリ安全性を評価し、QA形式（7ドメイン、36種類のリスク）とワークフロー形式（Agent-SafetyBenchの20環境から適用）を組み合わせている。
ベンチマークでは、多ラウンドのやり取りにおいて良性と誤誘導の混在メモリプールを用い、メモリ進化を模擬している。
代表的なモデルの実験では、バイアスのあるメモリ更新によって安全性が大きく低下することが示され、分析によりメモリ進化が失敗の主要因である可能性が示唆されている。
さらに、静的なプロンプトに基づく防御だけでは不十分であり、LLMエージェントのメモリ進化の安全確保が急務であると結論づけている。

概要: 大規模言語モデル（LLM）に永続メモリを備えることは、対話の継続性やパーソナライズを高めますが、新たな安全リスクも生じます。具体的には、汚染された、または偏ったメモリが蓄積されることで、異常なエージェント挙動が引き起こされる可能性があります。既存の評価手法では、メモリのミスエボリューション（misevolution）を測定するための標準化された枠組みがまだ確立されていません。ここでいう現象とは、誤導する情報に繰り返しさらされることで生じる、徐々に振る舞いが逸れていく（行動ドリフト）ことです。このギャップに対処するため、我々はMemEvoBenchを導入します。これは、LLMエージェントにおける長期（long-horizon）メモリの安全性を、敵対的なメモリ注入、ノイズのあるツール出力、偏ったフィードバックに対して評価する最初のベンチマークです。この枠組みは、7つの領域にわたるQAスタイルのタスクと、36種類のリスクタイプで構成され、加えて、ノイズのあるツール戻り値を伴う20のAgent-SafetyBench環境から適応したワークフロースタイルのタスクで補完されています。いずれの設定でも、メモリ進化（memory evolution）を模擬するために、複数ラウンドの相互作用の中で、良性および誤導を含むメモリプールを混在させて用います。代表的なモデルに対する実験では、偏ったメモリアップデートのもとで大幅な安全性の低下が観測されます。我々の分析は、この失敗の重要な要因としてメモリ進化が寄与していることを示唆しています。さらに、静的なプロンプトベースの防御は不十分であり、LLMエージェントにおけるメモリ進化の安全確保が急務であることが強調されます。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

MemEvoBench：LLMエージェントにおけるメモリのミスエボリューションをベンチマークする

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer