要旨: AIエージェントとの長い会話は、1人のユーザーにとって単純な問題を生み出します。履歴は有用ですが、逐語的に保持することは高価です。私たちは個別化されたエージェントのメモリを研究します。1人のユーザーとエージェントとの会話履歴を、後で検索するためのコンパクトな検索レイヤへと蒸留します。各交換は、4つのフィールド(exchange_core、specific_context、thematic room_assignments、regex-extracted files_touched)を持つ複合オブジェクトに圧縮されます。検索可能な蒸留テキストは、交換あたり平均38トークンです。6つのソフトウェア工学プロジェクトからの4,182件の会話(14,340交換)に適用すると、この方法は平均交換長を371トークンから38トークンに短縮し、約11倍の圧縮を実現します。私たちは、この圧縮を個人化したリコールが生き残るかどうかを、201件のリコール指向クエリ、5つの純粋モードと5つのクロスレイヤー検索モードを含む107の設定、そして5つのLLMグレーター(214,519件の合意評価付きクエリ結果ペア)を用いて評価します。最良の純粋蒸留設定は、最良の逐語的MRRの96%に達します(0.717対0.745)。結果はメカニズム依存です。Bonferroni補正後も、20のベクトル検索設定はいずれも有意ではありません。一方、20のBM25設定はいずれも有意に低下します(効果量 |d|=0.031-0.756)。最良のクロスレイヤー設定は、最高の純粋逐語ベースラインをやや上回ります(MRR 0.759)。構造化蒸留は、単一のユーザーエージェントメモリを圧縮しつつ、検索品質を一様に犠牲にはしません。コンテキストコストを1/11に抑えると、何千もの交換が1つのプロンプト内に収まり、逐語的ソースは掘り下げのために利用可能なままです。実装と分析パイプラインをオープンソースソフトウェアとして公開します。
パーソナライズされたエージェントメモリのための構造化蒸留: 検索機能を維持しつつ11倍のトークン削減
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 構造化蒸留は、ユーザーのエージェント会話履歴を4つの交換フィールドからなるコンパクトな検索用レイヤーに圧縮し、後での効率的な検索を可能にします。
- 6つのソフトウェア工学プロジェクトからの4,182件の会話(14,340のやり取り)に適用され、平均のやり取り長を371トークンから38トークンへと削減し、11倍の圧縮を達成します。
- 評価によれば、最良の純粋蒸留構成は逐語的MRRの96%に到達する(0.717対0.745)、一方、最良のクロスレイヤー構成は逐語的ベースラインをやや上回り、MRRは0.759である。
- 著者らは、実装と分析パイプラインをオープンソースソフトウェアとして公開し、パーソナライズされたエージェントメモリのための構造化蒸留の実用的な活用を可能にしています。


