K-Score:報酬正規化に対する原理的代替としてのリカレント・カルマンフィルタによる強化学習

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、方策勾配型強化学習において、報酬正規化をヒューリスティックではなく1次元カルマンフィルタでオンライン推定することで置き換える手法「K-Score」を提案しています。
  • 潜在的な報酬平均を再帰的に推定することで、K-Scoreは高分散なリターンを平滑化し、学習中の非定常環境にも適応できるとしています。
  • 計算オーバーヘッドは最小限で、既存の方策(ポリシー)ネットワーク構造を変更する必要がない設計です。
  • LunarLanderおよびCartPoleでの実験により、カルマンフィルタ適用後の報酬が従来の正規化手法よりも収束を速め、学習の分散を低減することを示しています。
  • 実装コードは https://github.com/Sumxiaa/Kalman_Normalization で公開されています。

Abstract

本稿では、オンライン報酬推定のために1次元カルマンフィルタを統合することで、ポリシー勾配強化学習における報酬正規化のための単純かつ効果的な代替手法を提案します。固定された経験則に依存するのではなく、提案手法は潜在する報酬平均を再帰的に推定し、高分散なリターンを平滑化し、非定常な環境に適応します。このアプローチはオーバーヘッドが最小であり、既存のポリシー・アーキテクチャに変更を加える必要はありません。\textit{LunarLander} および \textit{CartPole} での実験により、カルマンフィルタ適用後の報酬が、標準的な正規化手法と比べて収束を大幅に加速し、学習のばらつきを低減することが示されています。コードは https://github.com/Sumxiaa/Kalman_Normalization で公開されています。