K-Score:報酬正規化に対する原理的代替としてのリカレント・カルマンフィルタによる強化学習
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、方策勾配型強化学習において、報酬正規化をヒューリスティックではなく1次元カルマンフィルタでオンライン推定することで置き換える手法「K-Score」を提案しています。
- 潜在的な報酬平均を再帰的に推定することで、K-Scoreは高分散なリターンを平滑化し、学習中の非定常環境にも適応できるとしています。
- 計算オーバーヘッドは最小限で、既存の方策(ポリシー)ネットワーク構造を変更する必要がない設計です。
- LunarLanderおよびCartPoleでの実験により、カルマンフィルタ適用後の報酬が従来の正規化手法よりも収束を速め、学習の分散を低減することを示しています。
- 実装コードは https://github.com/Sumxiaa/Kalman_Normalization で公開されています。



