強化学習における訓練目的としてのダイナミカル・プライオア

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的な強化学習では高い報酬を達成しても、信念（自信）の急な変化、振動、学習中の無気力など、時間的に一貫しない振る舞いが起き得ると指摘しています。
Dynamical Prior Reinforcement Learning（DP-RL）として、エビデンスの蓄積とヒステリシスを実現する外部の状態ダイナミクスに基づく補助損失を、ポリシー勾配学習へ追加する枠組みを提案しています。
DP-RLは、報酬関数・環境・ポリシー構造を変更せずに、学習中の行動確率の時間発展の形を制御することを目指しています。
3つの最小限の環境での実験により、ダイナミカル・プライオアが課題依存の仕方で意思決定の軌跡を変え、汎用的なスムージングでは説明できない時間的に整った振る舞いを促すことが示されています。
著者らは、訓練目的の設計そのものが、RLエージェントの意思決定における時間的な「幾何」を制御し得ると結論づけています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA