DPEPO：LLMベースエージェントのための多様な並列探索ポリシー最適化

arXiv cs.CL / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、LLMベースエージェントが複数の環境に並列に相互作用し、軌跡（トラジェクトリ）間で経験を共有できる新しいパラダイムを提案し、探索の限定性を課題として扱います。
そのパラダイムに基づき、冗長な行動ではなく多様な並列探索を促すための強化学習（RL）アルゴリズムDPEPOを提示します。
DPEPOは2段階で構成され、まず並列な推論と行動生成のための教師あり微調整（SFT）を行い、その後階層型報酬設計を用いた強化学習へ進みます。
階層型報酬には軌跡レベルの成功報酬に加え、冗長性を罰し多様な探索を促す「多様な行動報酬」と「多様な状態遷移報酬」というステップレベル報酬が含まれます。
ALFWorldおよびScienceWorldでの実験では、強力な逐次ベースラインと同等の効率を維持しつつ、成功率で最先端（SOTA）を達成し、コードもGitHubで公開されています。

Abstract

「考えてから行動する（reason-then-act）」という逐次的なパラダイムに従う大規模言語モデル（LLM）エージェントは、多くの複雑な課題において優れた性能を達成しています。しかしながら、これらの手法は、各ステップで単一の環境としか相互作用しないため、探索が限定され、環境理解が不完全になってしまいます。本論文では、まず、エージェントが複数の環境と同時に相互作用し、軌跡（トラジェクトリ）間で経験を共有できるようにする新しいパラダイムを提案します。このパラダイムに基づき、さらに、多様な並列探索を行うことを促す強化学習（RL）アルゴリズムであるDPEPOを提案します。DPEPOには2つの段階があります。初期の教師あり微調整（SFT）で基本的な並列推論と行動生成を行い、その後に階層的な報酬設計を用いた強化学習段階を行います。私たちは、並列な軌跡レベルの成功報酬と、2つのステップレベル報酬――Diverse Action Reward（多様な行動報酬）およびDiverse State Transition Reward（多様な状態遷移報酬）――を設計します。これらは、行動の冗長性を能動的に罰し、幅広い探索を促進します。ALFWorldおよびScienceWorldに対する大規模な実験の結果、DPEPOは最先端（SOTA）の成功率を達成しつつ、強力な逐次ベースラインと同等の効率を維持することが示されます。（コードはhttps://github.com/LePanda026/Code-for-DPEPOで利用可能です）