LLMエージェント向けの、ステップレベル遷移を拡張した階層型強化学習
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、増え続ける全体の相互作用履歴を必要とせず、ステップレベルの遷移から学習するLLMエージェント向け階層型強化学習フレームワーク「STEP-HRL」を提示する。
- STEP-HRLは、完了したサブタスクによってグローバルなタスク進捗を表し、局所的な進捗モジュールによって相互作用履歴を反復的かつ選択的に要約して、コンパクトな局所進捗信号へと圧縮する。
- 高位ポリシーと低位ポリシーの両方に対して拡張されたステップレベル遷移を作成することで、計算量を削減しつつ、エージェントの汎化性能を向上させることを狙う。
- ScienceWorldおよびALFWorldでの実験により、STEP-HRLが性能と汎化の両面でベースライン手法を上回るとともに、トークン使用量も削減できることが示される。
- 著者らはGitHubを通じてコードを公開し、研究者が本手法を再現・拡張できるようにしている。


