ノイズのある時間差（TD）誤差に対する頑健性のための擬似量子化アクター・クリティックアルゴリズム

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ブートストラップによって生じるノイズのある時間差（TD）誤差が強化学習を不安定化させ、価値関数や方策の学習を崩しうる問題に取り組む。
制御を推論として捉える観点を再検討し、最適性のシグモイドに基づく分布モデルを用いた頑健な学習則を提案する。ここでは、ノイズに起因して大きくなるTD誤差は勾配が消失しやすく、その更新から暗黙に除外される。
前向きKLと逆向きKLの違いが勾配消失の振る舞いにどのように作用するかを分析し、この洞察を用いてノイズのあるTD信号下でも安定に保たれる学習更新を設計する。
さらに、最適性を複数のレベルに分解し、追加のノイズ低減のためにTD誤差を「擬似量子化」する。また、望ましい性質を組み合わせる、Jensen–Shannonダイバージェンスに基づく近似的な代替案を導出する。
強化学習ベンチマークでの実験により、ターゲットネットワークやアンサンブル、あるいはノイズ報酬といった一般的なヒューリスティックだけでは不十分な設定においても、安定した学習が示される。