LLMエージェント向けの、ステップレベル遷移を拡張した階層型強化学習

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、増え続ける全体の相互作用履歴を必要とせず、ステップレベルの遷移から学習するLLMエージェント向け階層型強化学習フレームワーク「STEP-HRL」を提示する。
  • STEP-HRLは、完了したサブタスクによってグローバルなタスク進捗を表し、局所的な進捗モジュールによって相互作用履歴を反復的かつ選択的に要約して、コンパクトな局所進捗信号へと圧縮する。
  • 高位ポリシーと低位ポリシーの両方に対して拡張されたステップレベル遷移を作成することで、計算量を削減しつつ、エージェントの汎化性能を向上させることを狙う。
  • ScienceWorldおよびALFWorldでの実験により、STEP-HRLが性能と汎化の両面でベースライン手法を上回るとともに、トークン使用量も削減できることが示される。
  • 著者らはGitHubを通じてコードを公開し、研究者が本手法を再現・拡張できるようにしている。