要旨: 長期の会話エージェントは、ますます洗練された検索メカニズムを備えたメモリシステムに依存している。しかし、取得された断片は通常、非構造のテキストとして言語モデルに与えられており、複雑な推論に不可欠な関係・時間・テーマ(主題)の構造が欠けている。そこで、この推論ギャップを埋めるために、プラグアンドプレイの構造化メモリモジュールであるGRAVITY(\textbf{G}eneration-time \textbf{R}elational \textbf{A}nchoring \textbf{V}ia \textbf{I}njected \textbf{T}opological Memor\textbf{Y})を提案する。GRAVITYは、生の会話発話から、相補的な3つの知識表現を抽出する。すなわち、関係グラフに基づくエンティティプロファイル、因果トレースに結び付けられた時間イベントのタプル、セッションをまたぐトピックの要約である。生成時に、これらの表現をホストシステムのプロンプトへ構造化されたアンカリング文脈として注入する。この手法により、ホストモデルに対するいかなるアーキテクチャ上の改変も不要で、散在する証拠を、クエリに関連する首尾一貫した文脈へ効果的に統合できる。LongMemEvalおよびLoCoMoベンチマークにおいて、5種類の多様なメモリシステムに対する大規模な評価により、本手法の有効性が示された。平均して、GRAVITYはLLMジャッジの精度を7.5--10.1%向上させる。改善幅はベースラインの強さと逆相関しており、最も弱いホストは12.2%改善し、最強のホストでも3.8--5.7%の向上が得られる。これらの結果は、構造化された文脈アンカリングが、長期会話のメモリに対する、広く有効でアーキテクチャ非依存な拡張(augmentation)パラダイムであることを示している。
GRAVITY:長期会話メモリのための、アーキテクチャ非依存な構造化アンカーリング
arXiv cs.CL / 2026/5/5
📰 ニュースModels & Research
要点
- GRAVITYは、長期ホライズンの会話エージェント向けに、検索された文脈へ関係・時間・主題の構造を補うことを目的とした、プラグアンドプレイの構造化メモリモジュールである。
- 生の対話から、関係グラフに基づくエンティティプロファイル、因果トレースに組み込まれた時間イベントタプル、セッション横断のトピック要約の3種類の表現を抽出する。
- 生成時には、これらの表現を「構造化アンカー」としてホストモデルのプロンプトに注入し、ホストモデルのアーキテクチャ変更は不要としている。
- LongMemEvalとLoCoMoで5種類のメモリシステムに対して評価した結果、LLM-judge精度が平均で7.5〜10.1%向上した。
- 改善幅はベースラインが弱いほど大きく(最弱で約12.2%)、強い場合でも3.8〜5.7%の改善が維持され、幅広い適用可能性が示された。




