Co-Evolution of Policy and Internal Reward for Language Agents
arXiv cs.LG / 4/6/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 本論文は、LLMエージェントの長期行動における学習のボトルネックである「疎で遅延する報酬」を、外部報酬モデルに依存せず自己生成の内部報酬で解決する方針を提案しています。
- 提案手法Self-Guideは、推論時には自己生成した短いガイダンス信号で次の行動を誘導し、学習時には同じ信号をステップ単位の内部報酬へ変換して密な方策最適化を行います。
- その結果、方策(policy)と内部報酬(internal reward)が相互に改善し合う「共進化ループ」が形成され、より良い方策がより良いガイダンスを生み、ガイダンスが方策をさらに押し上げると述べています。
- 3つのエージェント・ベンチマークで、推論時セルフガイダンス単体でも改善が見られ、GRPOで方策と内部報酬を同時に進化させると、環境報酬のみで学習したベースラインに対して約8%の上乗せが得られたと報告しています。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

How Bash Command Safety Analysis Works in AI Systems
Dev.to

How I Built an AI Agent That Earns USDC While I Sleep — A Complete Guide
Dev.to

How to Get Better Output from AI Tools (Without Burning Time and Tokens)
Dev.to

How I Added LangChain4j Without Letting It Take Over My Spring Boot App
Dev.to