TSUBASA:進化するメモリと文脈蒸留による自己学習で、長期的パーソナライズを改善する

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TSUBASAは、長期タスクにおけるLLMのパーソナライズ性能を向上させるために、ユーザー情報をメモリに書き込む方法と、そこから読み返す方法の両方を進化させる2部構成の手法として提案される。
  • 本アプローチは、長い会話・活動履歴にわたってユーザーの行動の変化を追跡することが難しいといった、従来のメモリ機構における主要な弱点に対処する。
  • TSUBASAは、RAGの品質と効率のトレードオフ、およびパラメトリック適応における学習と推論のギャップに取り組むために、文脈蒸留を伴う自己学習目的を用い、ユーザーの経験を内部化する。
  • Qwen-3モデルファミリー(4B〜32B)を用いた長期ベンチマークでの実験では、TSUBASAは、メモリへの書き込みにより強く依存するMem0やMemory-R1のようなメモリ拡張型の競合を上回ることが示される。
  • 著者らは、先行手法と比べてトークン予算を削減しつつ、堅牢で高忠実度なパーソナライズを実現するパレート改善を報告している。

Abstract

Personalized large language models (PLLMs) have garnered significant attention for their ability to align outputs with individual's needs and preferences. However, they still struggle with long-horizon tasks, such as tracking a user's extensive history of conversations or activities. Existing memory mechanisms often fail to capture evolving behaviors, and RAG paradigms are trapped by a quality-efficiency tradeoff. Meanwhile, parametric adaptation is bottlenecked by train-inference gap due to the scarcity of labeled data. To enhance the long-horizon capabilities of PLLMs, we introduce TSUBASA, a two-pronged approach designed to improve memory writing via dynamic memory evolution, and memory reading via self-learning with a context distillation objective to internalize user experiences. Extensive evaluations on long-horizon benchmarks using the Qwen-3 model family (4B to 32B) validate the effectiveness of TSUBASA, surpassing competitive memory-augmented systems that rely primarily on memory writing, such as Mem0 and Memory-R1. Our analyses further confirms that TSUBASA breaks the quality-efficiency barrier to achieve Pareto improvements, delivering robust, high-fidelity personalization with a reduced token budget.