LLMエージェント向けの、ステップレベル遷移を拡張した階層型強化学習

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、増え続ける全体の相互作用履歴を必要とせず、ステップレベルの遷移から学習するLLMエージェント向け階層型強化学習フレームワーク「STEP-HRL」を提示する。
STEP-HRLは、完了したサブタスクによってグローバルなタスク進捗を表し、局所的な進捗モジュールによって相互作用履歴を反復的かつ選択的に要約して、コンパクトな局所進捗信号へと圧縮する。
高位ポリシーと低位ポリシーの両方に対して拡張されたステップレベル遷移を作成することで、計算量を削減しつつ、エージェントの汎化性能を向上させることを狙う。
ScienceWorldおよびALFWorldでの実験により、STEP-HRLが性能と汎化の両面でベースライン手法を上回るとともに、トークン使用量も削減できることが示される。
著者らはGitHubを通じてコードを公開し、研究者が本手法を再現・拡張できるようにしている。

日経XTECH

Dev.to

Dev.to

Dev.to

Dev.to