MemGround：ゲーム化されたシナリオにおける大規模言語モデルの長期記憶評価キット

arXiv cs.AI / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの長期記憶に関する既存評価が静的で、単純な検索や短い文脈での推論に偏っているため、動的な状態追跡や継続的な相互作用における階層的推論といった複雑な記憶の性質を捉えきれていないと指摘しています。
リッチなインタラクティブ状況を基盤とした長期記憶ベンチマーク「MemGround」を提案し、Surface State Memory、Temporal Associative Memory、Reasoning-Based Memoryの3層を評価できるようにしています。
MemGroundは3段階の階層フレームワークと専用タスクを備え、状態の追跡、時間をまたいだ出来事の関連付け、連続的なやり取りの中での階層的推論を検証する設計です。
質問応答スコア（QA Overall）やMemory Fragments Unlocked（MFU）、Memory Fragments with Correct Order（MFCO）、Exploration Trajectory Diagrams（ETD）など複数の指標で、記憶の使われ方とエージェント挙動の推移を幅広く定量化します。
実験結果では、最先端のLLMやメモリエージェントでも、長期にわたる蓄積証拠に基づく複雑な推論や、動的な状態追跡、時間的イベントの関連付けを継続して行うのが依然として難しいことが示されています。

要旨: LLMにおける長期記憶の現行評価は、根本的に静的です。単純な検索と短いコンテキストに基づく推論に固執することで、連続的なやり取りにおける動的な状態追跡や階層的な推論といった、複雑な記憶システムの多面的な性質を見落としています。これらの制約を克服するために、豊富でゲーミファイドされたインタラクティブなシナリオに自然に根拠づけられた、厳密な長期記憶ベンチマークであるMemGroundを提案します。これらの能力を体系的に評価するために、MemGroundは、専門化されたインタラクティブ課題を通じてSurface State Memory（表層状態記憶）、Temporal Associative Memory（時間的連想記憶）、Reasoning-Based Memory（推論ベース記憶）を評価する、三層の階層的フレームワークを導入します。さらに、記憶の利用と行動の軌跡の両方を包括的に定量化するために、Question-Answer Score（QA Overall、質問-回答スコア全体）、Memory Fragments Unlocked（MFU、解放された記憶フラグメント数）、Memory Fragments with Correct Order（MFCO、正しい順序での記憶フラグメント数）、Exploration Trajectory Diagrams（ETD、探索軌跡ダイアグラム）から成る多次元の指標群を提案します。大規模な実験の結果、最先端のLLMやメモリエージェントでさえ、インタラクティブ環境で長期に蓄積された証拠に基づく、持続的な動的追跡、時間的イベントの関連づけ、複雑な推論に依然として苦戦していることが明らかになりました。