MemEvoBench:LLMエージェントにおけるメモリのミスエボリューションをベンチマークする

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、誤情報に繰り返しさらされることで生じる「メモリのミスエボリューション」(行動のドリフト)をLLMエージェントで測定するための新しいベンチマークMemEvoBenchを提案している。
  • 実験は、敵対的なメモリ注入、ノイズのあるツール出力、バイアスを含むフィードバックを用いて長期的なメモリ安全性を評価し、QA形式(7ドメイン、36種類のリスク)とワークフロー形式(Agent-SafetyBenchの20環境から適用)を組み合わせている。
  • ベンチマークでは、多ラウンドのやり取りにおいて良性と誤誘導の混在メモリプールを用い、メモリ進化を模擬している。
  • 代表的なモデルの実験では、バイアスのあるメモリ更新によって安全性が大きく低下することが示され、分析によりメモリ進化が失敗の主要因である可能性が示唆されている。
  • さらに、静的なプロンプトに基づく防御だけでは不十分であり、LLMエージェントのメモリ進化の安全確保が急務であると結論づけている。

概要: 大規模言語モデル(LLM)に永続メモリを備えることは、対話の継続性やパーソナライズを高めますが、新たな安全リスクも生じます。具体的には、汚染された、または偏ったメモリが蓄積されることで、異常なエージェント挙動が引き起こされる可能性があります。既存の評価手法では、メモリのミスエボリューション(misevolution)を測定するための標準化された枠組みがまだ確立されていません。ここでいう現象とは、誤導する情報に繰り返しさらされることで生じる、徐々に振る舞いが逸れていく(行動ドリフト)ことです。このギャップに対処するため、我々はMemEvoBenchを導入します。これは、LLMエージェントにおける長期(long-horizon)メモリの安全性を、敵対的なメモリ注入、ノイズのあるツール出力、偏ったフィードバックに対して評価する最初のベンチマークです。この枠組みは、7つの領域にわたるQAスタイルのタスクと、36種類のリスクタイプで構成され、加えて、ノイズのあるツール戻り値を伴う20のAgent-SafetyBench環境から適応したワークフロースタイルのタスクで補完されています。いずれの設定でも、メモリ進化(memory evolution)を模擬するために、複数ラウンドの相互作用の中で、良性および誤導を含むメモリプールを混在させて用います。代表的なモデルに対する実験では、偏ったメモリアップデートのもとで大幅な安全性の低下が観測されます。我々の分析は、この失敗の重要な要因としてメモリ進化が寄与していることを示唆しています。さらに、静的なプロンプトベースの防御は不十分であり、LLMエージェントにおけるメモリ進化の安全確保が急務であることが強調されます。