動的環境における自律AIエージェント学習のための適応的メモリ結晶化

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動的環境において過去に学習した知識を消去することなく新たなスキルを追加することを目的とした、継続的強化学習向けのメモリアーキテクチャ「Adaptive Memory Crystallization(AMC)」を提案する。
  • AMCはシナプス・タグ付けとキャプチャ(STC)理論に動機づけられているが、記憶形成を、複数目的のユーティリティ信号を用いて経験を可塑状態から安定状態へ移す連続的な「結晶化」プロセスとして再解釈する。
  • 本手法は3相のメモリ階層(Liquid–Glass–Crystal)を定義し、Itô型のSDE(確率微分方程式)により結晶化ダイナミクスをモデル化する。さらに、集団レベルの挙動はファッカー–プランク方程式で記述され、閉形式のベータ定常分布が与えられる。
  • 著者らは、適切性(well-posedness)、一意な定常分布へのグローバル収束、固定点への指数収束(明示的な収束率つき)、およびSDEパラメータに直接結びつくQ-learning誤差・メモリ容量の境界を含む数学的保証を提示する。
  • Meta-World MT50、Atariの逐次学習、MuJoCoの継続的移動(locomotion)に関する実験では、前向き転移がより高い(+34–43%)、壊滅的忘却が低減(67–80%)、強力なベースラインに比べてメモリフットプリントが62%削減されたと報告している。

Abstract

動的な環境で動作する自律AIエージェントは、過去の知識を消し去ることなく新しい能力を獲得するという持続的な課題に直面しています。本稿では、継続的強化学習における漸進的な経験の統合のためのメモリアーキテクチャである Adaptive Memory Crystallization (AMC) を提案します。 AMC は、記憶が離散的な安定相を通過するという考え方であるシナプスタグ付けとキャプチャ(STC)理論の質的構造に着想を得ていますが、基礎となる分子またはシナプス機構をモデル化することを主張するものではありません。 AMC は、経験が多目的ユーティリティ信号に従って可塑(プラスティック)状態から安定状態へ移行する、連続的な結晶化プロセスとしてメモリをモデル化します。この枠組みは、It\^o の確率微分方程式(SDE)によって支配される 3 相のメモリ階層(Liquid--Glass--Crystal)を導入し、母集団レベルの振る舞いを、閉形式の Beta 定常分布を許容する明示的な Fokker--Planck 方程式によって捉えます。 次を証明します: (i) 結晶化 SDE の well-posedness(適切性)と一意な Beta 定常分布へのグローバル収束;(ii) 個々の結晶化状態が固定点に指数関数的に収束すること、ならびに明示的な収束率と分散の上界;(iii) end-to-end の Q-learning 誤差境界および、SDE のパラメータをエージェント性能に直接結びつける整合的なメモリ容量の下限。 Meta-World MT50、Atari の 20 ゲーム逐次学習、MuJoCo の継続的な移動(ロコモーション)に対する実証評価では一貫して、前向き転移(最も強いベースラインに対して +34--43 %)の改善、壊滅的忘却の低減(67--80 %)、およびメモリフットプリントの 62 % 減少が示されています。