ストリーミング強化学習における意図的アップデート

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

パラメータ空間で固定したステップサイズは、関数出力に対して予測可能な変化をもたらさず、特にストリーミング強化学習（バッチサイズ=1）では平均化されない確率的揺らぎによって不安定化しやすいです。
本論文は「意図的アップデート」を提案し、まず更新が関数出力にもたらす望ましい結果（効果）を指定し、その結果を近似的に実現するステップサイズを解くことで制御します。
Normalized Least Mean Squares（オンライン線形回帰）での先行事例にならい、意図するアウトカムを定義することで、Intentional TD（TD誤差の固定割合の減少を目標）とIntentional Policy Gradient（方策の1ステップ当たりの変化を抑えて局所KLダイバージェンスを制限）へ拡張しています。
eligibility traces（エリジビリティトレース）と対角スケーリングを組み合わせた実用的アルゴリズムが提案され、実験では最先端のストリーミング性能が示され、バッチやリプレイバッファ方式と同等〜それ以上の頻度で並びます。
要するに、本手法はストリーミング更新に固有の不安定要因（未平均化の確率的揺らぎ）に対し、1ステップごとの振る舞いをより制御し予測可能にすることを狙っています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA