K-Score：報酬正規化に対する原理的代替としてのリカレント・カルマンフィルタによる強化学習

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、方策勾配型強化学習において、報酬正規化をヒューリスティックではなく1次元カルマンフィルタでオンライン推定することで置き換える手法「K-Score」を提案しています。
潜在的な報酬平均を再帰的に推定することで、K-Scoreは高分散なリターンを平滑化し、学習中の非定常環境にも適応できるとしています。
計算オーバーヘッドは最小限で、既存の方策（ポリシー）ネットワーク構造を変更する必要がない設計です。
LunarLanderおよびCartPoleでの実験により、カルマンフィルタ適用後の報酬が従来の正規化手法よりも収束を速め、学習の分散を低減することを示しています。
実装コードは https://github.com/Sumxiaa/Kalman_Normalization で公開されています。

Abstract

本稿では、オンライン報酬推定のために1次元カルマンフィルタを統合することで、ポリシー勾配強化学習における報酬正規化のための単純かつ効果的な代替手法を提案します。固定された経験則に依存するのではなく、提案手法は潜在する報酬平均を再帰的に推定し、高分散なリターンを平滑化し、非定常な環境に適応します。このアプローチはオーバーヘッドが最小であり、既存のポリシー・アーキテクチャに変更を加える必要はありません。\textit{LunarLander} および \textit{CartPole} での実験により、カルマンフィルタ適用後の報酬が、標準的な正規化手法と比べて収束を大幅に加速し、学習のばらつきを低減することが示されています。コードは https://github.com/Sumxiaa/Kalman_Normalization で公開されています。

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

Dev.to

K-Score：報酬正規化に対する原理的代替としてのリカレント・カルマンフィルタによる強化学習

要点

Abstract

関連記事

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Claude Codeのフックで開発ワークフローを自動化する方法

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer