継続学習が記憶へ移るとき:LLMエージェントにおける経験リユースの研究

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 記憶拡張型のLLMエージェントは、パラメータを更新せずに継続学習を実現できる近道のように見えますが、安定性–可塑性問題は外部メモリ/検索(リトリーバル)層でも再び現れることが示されました。
  • 文脈ウィンドウが限られる状況では、検索時に古い経験と新しい経験が競合し、継続学習のボトルネックがモデル更新からメモリアクセスへと移ることがあります。
  • 本研究では、外部メモリにおける経験の表現方法と検索のための組織化方法という2つの設計軸を切り分ける (k,v) フレームワークを提案しています。
  • ALFWorldおよびBabyAIでの逐次タスク実験では、詳細な軌跡よりも抽象的な手続き的記憶の方が転移しやすく、否定的転移は特に難しいケースで偏って起きやすいことが分かりました。
  • 記憶の組織化は常に有利ではありません:前向き転移が強くなる設計が、同時に深刻な忘却を引き起こす可能性があり、記憶表現と検索設計にトレードオフがあることを示しています。

要旨: メモリ拡張型LLMエージェントは、継続学習への魅力的な近道を提供します。すなわち、モデルのパラメータを更新する代わりに、外部メモリに経験を蓄積することで、パラメトリック学習における安定性—可塑性ジレンマを回避しているように見えるのです。本研究では、この課題が消えるのではなく、メモリのレベルで再び現れることを示します。限定されたコンテキストウィンドウの下では、検索(リトリーブ)の際に古い経験と新しい経験が競合し、継続学習のボトルネックがパラメータ更新からメモリアクセスへと移されます。この現象を研究するために、外部メモリの2つの基本的な設計軸——すなわち、経験がどのように表現されるか、そして検索のためにどのように整理されるか——を切り分ける(k,v)フレームワークを導入します。ALFWorldおよびBabyAIにおける一連のタスク実験を通じて、詳細な軌跡よりも抽象的な手続き的記憶のほうが、より確実に転移することを見いだします。一方で、否定的転移は難しいケースに対して不釣り合いに大きな悪影響を与えます。さらに、より細粒度のメモリ整理が常に有益であるわけではありません。強い前向き転移をもたらす設計は、同時に深刻な忘却を引き起こし得るのです。これらの結果は、外部メモリが継続学習の問題を解決するのではなく、それを「メモリ表現と検索設計の問題」へと作り替えることを明らかにします。