記憶に依拠する：デュアルトレース符号化はLLMエージェントにおけるセッションをまたいだ想起を改善する

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、永続メモリを備えたLLMエージェントがしばしば情報をフラットな事実として保存してしまうため、時間的推論、変化の追跡、セッションをまたいだ集約が制限されると主張する。
「デュアルトレース符号化」を提案する。これは、保存する各事実を、具体的なシーントレース（情報をいつ、どの文脈で学習したかを再構成する物語的説明）と組にして、記憶をより識別可能にする手法である。
LongMemEval-Sベンチマーク（4,575セッション、100の想起質問）での実験により、デュアルトレースは事実のみの対照（fact-only）より優れ、全体精度で73.7%対53.5%（+20.2 pp、統計的に有意）を達成した。
改善は、時間的推論（+40 pp）、知識更新の追跡（+25 pp）、複数セッションの集約（+30 pp）に集中しており、単一セッションでの検索には効果がない。これは符号化特異性理論と整合する。
トークン単位の分析では、追加のトークンコストなしで精度向上が得られることが示され、著者らはコーディングエージェントへの適応方法と、予備的なパイロット結果を述べている。

要旨: 持続的メモリを備えたLLMエージェントは、情報を平坦な事実記録として保存し、時間的推論、変化の追跡、セッションをまたいだ集約に対してはほとんど文脈を提供しない。描画効果[3]に触発されて、デュアルトレース・メモリ符号化を提案する。この方法では、保存された各事実は、情報を学習した瞬間および文脈の物語的再構成である具体的なシーン・トレースとペアにされる。エージェントは符号化の段階で特定の文脈的詳細にコミットすることを強制され、その結果、より豊かで、より識別的なメモリ・トレースが生成される。LongMemEval-Sベンチマーク（4,575セッション、100件の想起質問）を用いて、デュアルトレース符号化を、カバレッジとフォーマットを99問の共有質問に合わせた事実のみの対照と比較する。デュアルトレースは、全体精度が53.5%に対して73.7%であり、+20.2パーセンテージポイント（pp）の向上（95% CI: [+12.1, +29.3]、ブートストラップp < 0.0001）を達成する。これらの向上は、時間的推論（+40pp）、知識更新の追跡（+25pp）、およびマルチセッション集約（+30pp）に集中しており、単一セッション想起には有益性が見られない。これは、符号化特異性理論[8]と整合する。トークン分析の結果、デュアルトレース符号化は追加コストなしでこの向上を達成している。さらに、デュアルトレース符号化をコーディング・エージェントに適応させるためのアーキテクチャ設計案を概説し、予備的なパイロット検証も行う。