動的環境における自律AIエージェント学習のための適応的メモリ結晶化
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動的環境において過去に学習した知識を消去することなく新たなスキルを追加することを目的とした、継続的強化学習向けのメモリアーキテクチャ「Adaptive Memory Crystallization(AMC)」を提案する。
- AMCはシナプス・タグ付けとキャプチャ(STC)理論に動機づけられているが、記憶形成を、複数目的のユーティリティ信号を用いて経験を可塑状態から安定状態へ移す連続的な「結晶化」プロセスとして再解釈する。
- 本手法は3相のメモリ階層(Liquid–Glass–Crystal)を定義し、Itô型のSDE(確率微分方程式)により結晶化ダイナミクスをモデル化する。さらに、集団レベルの挙動はファッカー–プランク方程式で記述され、閉形式のベータ定常分布が与えられる。
- 著者らは、適切性(well-posedness)、一意な定常分布へのグローバル収束、固定点への指数収束(明示的な収束率つき)、およびSDEパラメータに直接結びつくQ-learning誤差・メモリ容量の境界を含む数学的保証を提示する。
- Meta-World MT50、Atariの逐次学習、MuJoCoの継続的移動(locomotion)に関する実験では、前向き転移がより高い(+34–43%)、壊滅的忘却が低減(67–80%)、強力なベースラインに比べてメモリフットプリントが62%削減されたと報告している。
