非定常性における順位と勾配の損失：強化学習における可塑性損失の緩和のためのサンプル重み減衰

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、深層強化学習における可塑性損失を、2種類の非定常性――データ分布の変化と、ブートストラップされたターゲットの非定常性――に起因するとして理論的に説明する。

要旨: 深層強化学習（RL）は、非定常性の性質により、可塑性損失が深刻に生じます。これにより、新しいデータに適応し、継続的に学習する能力が損なわれます。残念なことに、可塑性損失がどのように生じ、どのように散逸し、そしてどのように溶解し得るのかに関する理解は、経験的な知見に限定されており、理論的な側面は十分に探究されていません。このギャップに対処するために、我々はネットワーク最適化の理論的観点から可塑性損失問題を研究します。オンラインRLのプロセスにおける2つの「犯人」因子――データ分布の非定常性と、ブートストラップによって誘起されるターゲットの非定常性――を形式的に特徴づけることで、我々の理論は、可塑性損失を2つのメカニズムに帰します。すなわち、ニューラル・タンジェント・カーネル（NTK）グラム行列のランク崩壊と、勾配の大きさの $\Theta(\frac{1}{k})$ の減衰です。第一のメカニズムは、理論的観点からの先行する経験的知見を反映しており、ネットワークリセット、ニューロンのリサイクル、ノイズ注入といった既存手法が与える影響を明らかにします。このような背景のもと、我々は主として第二のメカニズムに焦点を当て、既存手法とは直交する、勾配減衰問題に対処することで可塑性損失を緩和することを目指します。経験再生に基づく深層RL手法に対する可塑性損失の一般的な対処法として、勾配の大きさを回復させる軽量な手法であるSample Weight Decayを提案します。実験では、MuJoCoにおけるSimBaアーキテクチャでTD3、
myadded{Double DQN}、およびSACを用い、
myadded{ALE}およびDeepMind Control Suiteのタスクで
a methodNameの有効性を評価します。その結果、
methodNameは可塑性損失を効果的に緩和し、多様な設定における深層RLアルゴリズム、UTD、ネットワーク・アーキテクチャ、環境のいずれにおいても学習性能を一貫して向上させ、困難なDMC HumanoidタスクでSOTAの性能を達成することが示されました。