DPEPO:LLMベースエージェントのための多様な並列探索ポリシー最適化
arXiv cs.CL / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、LLMベースエージェントが複数の環境に並列に相互作用し、軌跡(トラジェクトリ)間で経験を共有できる新しいパラダイムを提案し、探索の限定性を課題として扱います。
- そのパラダイムに基づき、冗長な行動ではなく多様な並列探索を促すための強化学習(RL)アルゴリズムDPEPOを提示します。
- DPEPOは2段階で構成され、まず並列な推論と行動生成のための教師あり微調整(SFT)を行い、その後階層型報酬設計を用いた強化学習へ進みます。
- 階層型報酬には軌跡レベルの成功報酬に加え、冗長性を罰し多様な探索を促す「多様な行動報酬」と「多様な状態遷移報酬」というステップレベル報酬が含まれます。
- ALFWorldおよびScienceWorldでの実験では、強力な逐次ベースラインと同等の効率を維持しつつ、成功率で最先端(SOTA)を達成し、コードもGitHubで公開されています。



![[AI] Chat GPT5.2 thinking:東大理三入試最高点を50点超えの衝撃](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F270859710%2Frectangle_large_type_2_3a417dfd162712fe90da88d175acc72d.jpeg%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
