Abstract
固定されたメモリ予算の下で、逐次的に動作するエージェントは、古い経験を忘れることなく新しい経験を取り込まなければなりません。本稿では、メモリをパラメータベクトルではなく確率過程として扱う枠組みを提案します。すなわち、区間 [0,1] のリプレイ区間上の
a Bridge Diffusion であり、その終端の周辺分布は現在を符号化し、中間の周辺分布は過去を符号化します。新しい経験の取り込みは、三段階の
a \emph{Compress--Add--Smooth}(CAS)再帰によって行います。我々は、この枠組みを、d 次元において固定された成分数~K のガウス混合によって周辺確率密度をモデル化するクラスのモデル上で検証します。時間的複雑性は、ガウス混合状態を格納する分割線形プロトコル区間の固定本数~L によって制御されます。再帰全体の計算コストは1日あたり O(LKd^2) フロップであり、逆伝播も、保存データも、ニューラルネットワークも必要としません。そのため、コントローラ負荷の軽いハードウェアで実現可能です。
この枠組みにおける忘却は、パラメータ干渉によってではなく、損失のある時間圧縮によって生じます。すなわち、固定された区間予算の下で、より粗いプロトコルによってより細かなプロトコルを再近似することです。我々は、保持の半減期が a_{1/2}\approx c\,L の形で線形にスケールすることを見出します。ただし c>1 は、ダイナミクスに依存する定数であり、混合の複雑性~K、次元~d、またはターゲットとなるファミリの幾何学には依存しません。この定数~c は、シャノンのチャネル容量に類似した情報理論的解釈を持ちます。ブリッジの背後にある確率過程は、時間的に整合した「ムービー」リプレイ、すなわちエージェントの履歴の圧縮された物語を提供し、MNIST の潜在空間の図示によって視覚的に示します。本枠組みは、忘却の機構、率、形を数学的に精密に研究できる、連続学習の完全な解析的「イジングモデル」を提供します。