MemRouter:メモリ・アズ・エンベディングによる長期会話エージェントのルーティング

arXiv cs.AI / 2026/5/4

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、長期会話エージェントにおける「書き込み側」のメモリ・ルーティング手法としてMemRouterを提案し、毎ターンの自己回帰的なメモリ管理生成を行わずに外部メモリへ保存すべき発話を判断します。
  • MemRouterは埋め込みベースのルーティング方針を用い、各ターンを直近コンテキストとともにエンコードして埋め込みを凍結済みのLLMバックボーンに通し、保存すべきかを軽量な分類ヘッドで予測します(訓練は12Mパラメータのみ)。
  • LoCoMoでのマッチド・ハーネス実験では、取得(リトリーバル)パイプライン、プロンプト、QAバックボーン(Qwen2.5-7B)を同一に保った上で、LLMベースのメモリ管理よりも全体F1を52.0に向上させ(45.6→52.0)、95%の信頼区間で非重複として報告されています。
  • MemRouterはメモリ管理のレイテンシも大幅に削減し、p50を970msから58msに低下させます。
  • さらに要因分解(ablation)では、学習済みのadmissionが最も大きな改善要因であり、その次にカテゴリ別プロンプト、さらにリトリーバルが寄与することが示されます。

要旨: 長期的な会話エージェントは、外部メモリに保存するどのターンを選ぶかを決定する必要があるが、近年のシステムは、その決定を行うために各ターンごとに自己回帰的なLLM生成に依存している。そこで我々は、書き込み側のメモリルータであるMemRouterを提案する。これは、メモリの許可(admission)を下流の回答バックボーンから切り離し、ターンごとのメモリ管理のデコーディングを、埋め込みベースのルーティング方策で置き換える。MemRouterは、直近の文脈とともに各ターンをエンコードし、その結果得られた埋め込みを凍結したLLMバックボーンを通して射影し、軽量な分類ヘッドによって、そのターンを保存すべきかどうかを予測する。学習はわずか12Mパラメータのみで行う。LoCoMoにおける制御されたマッチド・ハーネス比較では、検索パイプライン、回答プロンプト、QAバックボーン(Qwen2.5-7B)を同一に保ったまま、MemRouterはあらゆる質問カテゴリにおいてLLMベースのメモリ管理者を上回る(総合F1 52.0 vs 45.6、95%のCIが重ならない)一方で、メモリ管理のp50レイテンシを970msから58msへと削減する。記述的な因子分解平均により、学習された許可はランダムな保存に対して平均F1を+10.3改善し、カテゴリ固有のプロンプトは汎用プロンプトに対して+5.2加え、検索はさらに+0.7寄与することが示される。これらの結果は、書き込み側のメモリ許可が小さな教師ありルータによって学習可能である一方、回答生成は長期ホライゾンの会話型QAにおいて別個の下流コンポーネントとして維持されることを示唆している。