CoEvolve:エージェントのデータ相互進化によるLLMエージェントの学習
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMエージェントの強化学習が静的なデータ分布に基づくことが多く、その分布がエージェントの振る舞いの変化に適応できないため、複雑な環境との相互作用のカバレッジが不足し、性能が伸びにくいと指摘しています。
- CoEvolveは、ロールアウト軌跡から「忘却」や「不確実性」といったフィードバック信号を抽出し、失敗しやすい相互作用パターンを特定することで、エージェントとデータを相互に進化させるクローズドループ学習フレームワークを提案します。
- 特定したパターンをもとに、LLMによるタスク合成を行い、環境との相互作用で合成タスクを検証したうえで、その結果を学習データ分布の更新に利用します。
- AppWorldとBFCLで、Qwen2.5-7B、Qwen3-4B、Qwen3-30B-A3Bを用いた実験では、強力なベースラインモデルに対して一貫した有意な改善が示され、絶対改善幅はそれぞれ19.43%、15.58%、18.14%でした。
- 全体として、本手法はエージェントの方策と、エージェントが学習に用いるデータの両方を環境ダイナミクスの変化に合わせて同時に適応させることを狙っています。



