DPEPO:LLMベースエージェントのための多様な並列探索ポリシー最適化

arXiv cs.CL / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、LLMベースエージェントが複数の環境に並列に相互作用し、軌跡(トラジェクトリ)間で経験を共有できる新しいパラダイムを提案し、探索の限定性を課題として扱います。
  • そのパラダイムに基づき、冗長な行動ではなく多様な並列探索を促すための強化学習(RL)アルゴリズムDPEPOを提示します。
  • DPEPOは2段階で構成され、まず並列な推論と行動生成のための教師あり微調整(SFT)を行い、その後階層型報酬設計を用いた強化学習へ進みます。
  • 階層型報酬には軌跡レベルの成功報酬に加え、冗長性を罰し多様な探索を促す「多様な行動報酬」と「多様な状態遷移報酬」というステップレベル報酬が含まれます。
  • ALFWorldおよびScienceWorldでの実験では、強力な逐次ベースラインと同等の効率を維持しつつ、成功率で最先端(SOTA)を達成し、コードもGitHubで公開されています。

Abstract

「考えてから行動する(reason-then-act)」という逐次的なパラダイムに従う大規模言語モデル(LLM)エージェントは、多くの複雑な課題において優れた性能を達成しています。しかしながら、これらの手法は、各ステップで単一の環境としか相互作用しないため、探索が限定され、環境理解が不完全になってしまいます。本論文では、まず、エージェントが複数の環境と同時に相互作用し、軌跡(トラジェクトリ)間で経験を共有できるようにする新しいパラダイムを提案します。このパラダイムに基づき、さらに、多様な並列探索を行うことを促す強化学習(RL)アルゴリズムであるDPEPOを提案します。DPEPOには2つの段階があります。初期の教師あり微調整(SFT)で基本的な並列推論と行動生成を行い、その後に階層的な報酬設計を用いた強化学習段階を行います。私たちは、並列な軌跡レベルの成功報酬と、2つのステップレベル報酬――Diverse Action Reward(多様な行動報酬)およびDiverse State Transition Reward(多様な状態遷移報酬)――を設計します。これらは、行動の冗長性を能動的に罰し、幅広い探索を促進します。ALFWorldおよびScienceWorldに対する大規模な実験の結果、DPEPOは最先端(SOTA)の成功率を達成しつつ、強力な逐次ベースラインと同等の効率を維持することが示されます。(コードはhttps://github.com/LePanda026/Code-for-DPEPOで利用可能です)