MemRerank: パーソナライズされた商品リランキングのための嗜好メモリ

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ユーザの購買履歴を、クエリ非依存の簡潔な信号へ変換する嗜好メモリ（preference-memory）フレームワークであるMemRerankを提案する。
生の長い履歴をLLMプロンプトにそのまま追記するだけでは、ノイズ、プロンプト長の制約、関連性の不一致といった理由から効果がないと主張する。
提案手法を評価するために、著者らはエンドツーエンドのベンチマークおよび評価フレームワークを構築する。焦点は、LLMベースの1-in-5選択タスクであり、メモリの品質と下流のリランキング有用性の双方を測定する。
MemRerankのメモリ抽出器は強化学習で訓練され、下流のリランキング性能を監督（教師）信号として用いる。
2つのLLMベースのリランカーを用いた実験により、メモリなし、生履歴、既製（オフザシェルフ）のメモリ基準モデルと比べて一貫した改善が確認される。エージェント型eコマースシステムにおけるパーソナライズで、1-in-5精度が最大+10.61の絶対的な向上を達成する。

概要: LLMベースのショッピングエージェントは、パーソナライズのために長い購買履歴や多ターンの対話にますます依存しているが、単純に生の履歴をプロンプトへそのまま追記するだけでは、ノイズ、長さ、関連性の不一致といった理由でしばしば効果が得られない。私たちは、ユーザーの購買履歴を、検索クエリに依存しない簡潔な信号へ蒸留することで、パーソナライズされた商品の再ランキングを可能にする選好メモリの枠組みMemRerankを提案する。この問題を研究するために、メモリの品質と下流の再ランキング有用性の両方を測定する、LLMベースの\textbf{1-in-5}選択タスクを中心とした、エンドツーエンドのベンチマークおよび評価枠組みを構築する。さらに、下流の再ランキング性能を教師信号として用い、強化学習（RL）によりメモリ抽出器を学習する。2つのLLMベースの再ランキング器を用いた実験により、MemRerankは一貫して、メモリなし、生の履歴、既製のメモリ基線を上回り、1-in-5精度で最大\textbf{+10.61}の絶対的な改善が得られる。これらの結果は、明示的な選好メモリが、エージェント型ECシステムにおけるパーソナライズのための実用的で効果的な構成要素になり得ることを示唆している。