CoEvolve:エージェントのデータ相互進化によるLLMエージェントの学習

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントの強化学習が静的なデータ分布に基づくことが多く、その分布がエージェントの振る舞いの変化に適応できないため、複雑な環境との相互作用のカバレッジが不足し、性能が伸びにくいと指摘しています。
  • CoEvolveは、ロールアウト軌跡から「忘却」や「不確実性」といったフィードバック信号を抽出し、失敗しやすい相互作用パターンを特定することで、エージェントとデータを相互に進化させるクローズドループ学習フレームワークを提案します。
  • 特定したパターンをもとに、LLMによるタスク合成を行い、環境との相互作用で合成タスクを検証したうえで、その結果を学習データ分布の更新に利用します。
  • AppWorldとBFCLで、Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3Bを用いた実験では、強力なベースラインモデルに対して一貫した有意な改善が示され、絶対改善幅はそれぞれ19.43%、15.58%、18.14%でした。
  • 全体として、本手法はエージェントの方策と、エージェントが学習に用いるデータの両方を環境ダイナミクスの変化に合わせて同時に適応させることを狙っています。

Abstract

LLMエージェントに対する強化学習は通常、静的なデータ分布上で実施されますが、これはエージェントの進化する行動に適応できず、複雑な環境相互作用に対するカバレッジが不十分になるという問題を招きます。これらの課題に対処するために、本研究では、エージェントとデータの相互進化を行う枠組みであるCoEvolveを提案します。これにより、クローズドループの相互作用駆動型トレーニングを通じて、LLMエージェントが改善できるようになります。具体的には、CoEvolveはロールアウト軌跡から、忘却や不確実性といったフィードバック信号を抽出し、失敗しやすい相互作用パターンを特定します。そしてそれらを、LLMベースのタスク合成を導くために利用します。合成されたタスクは環境との相互作用によって検証され、その結果を用いてデータ分布を更新します。これにより、エージェントとそのデータがともに適応可能になります。Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3Bにまたがって、AppWorldおよびBFCLに対して大規模な実験を行った結果、強力なベースモデルに対して一貫した有意な改善が示されました。それぞれ絶対的な向上幅は19.43%、15.58%、18.14%です。